Herstelschaal Individual Recovery Outcomes Counter (I.ROC): scoring op universele schalen

E. de Beurs; M.J. Metz; L.M.W. Nahar-van Venrooij

Onderzoeksartikel

Herstelschaal Individual Recovery Outcomes Counter (I.ROC): scoring op universele schalen

E. de Beurs, M.J. Metz, L.M.W. Nahar-van Venrooij

Achtergrond In dit artikel bieden wij normscores voor de I.ROC, een instrument voor het meten van herstel. Normgegevens voor dit instrument op basis van de algemene bevolking worden gepresenteerd in de vorm van twee universele schalen: T-scores en percentielrangordescores (PR-scores). We bespreken voor- en nadelen van beide schalen en gaan in op hun onderlinge relatie.

Methode We gebruikten gegevens van een omvangrijke steekproef uit de algemene Nederlandse bevolking om PR- en T-scores te berekenen. Er werden twee benaderingen vergeleken waarmee ruwe scores naar T-scores worden omgezet: een simpele lineaire formule en een benadering waarbij ruwe scores eerst zijn genormaliseerd (rankit) en vervolgens een formule is bepaald voor de curvilineaire relatie van ruwe scores met T-scores.

Resultaten De frequentieverdeling van ruwe scores op de I.ROC was nagenoeg normaal en een lineaire formule voldeed voor de meeste ruwe scores. Alleen bij zeer lage scores vonden we forse verschillen tussen lineaire en genormaliseerde T-scores. We bieden een oversteektabel, -formules en een figuur om ruwe scores om te zetten naar T- en PR-scores.

Conclusie De I.ROC is een bruikbaar instrument dat past bij een brede visie op herstel. Voor een begrijpelijke presentatie van de uitkomsten voor zowel de cliënt als professional, en voor het gebruik van verschillende vragenlijsten naast elkaar, bevelen we toepassing van universele schalen aan. Voor incidentele omzetting van de ruwe score naar een T-score voldoet een simpele lineaire formule; voor inbouw in scoringsoftware bevelen we de precieze en complexe formule voor genormaliseerde T-scores (curvilineair) aan.

De Individual Recovery Outcomes Counter (I.ROC) is in 2007 ontwikkeld door Penumbra Mental Health in Schotland als instrument voor het meten van ‘herstel’. Instrumenten voor het meten van herstel of ‘recovery’ komen voort uit de herstelbeweging.1 Een kerngedachte is dat we bij het meten van behandeluitkomsten (en bij het behandelen zelf) verder moeten kijken dan symptoomreductie.2 Symptoomreductie wordt ook wel ‘klinisch herstel’ genoemd. Naast klinisch herstel is ook het functioneren op interpersoonlijk, sociaal en maatschappelijk vlak, en het welbevinden van belang. Persoonlijk herstel omvat aspecten van het leven die ook wel worden samengevat met het CHIME-acroniem, wat staat voor connectie, hoop & optimisme, identiteit, meaning (betekenis) en empowerment.3 In Nederland vinden we dit gedachtegoed terug in de positieve psychologie en in het model van Huber voor (positieve) gezondheid.4-6

Voortvloeiend uit deze zienswijze op gezondheid en herstel is de I.ROC ontwikkeld. De meetpretentie van de I.ROC is dan ook breed: met de I.ROC wordt in 12 items voor diverse levensgebieden het klinisch, sociaal-maatschappelijk en persoonlijk herstel vanuit cliëntperspectief in beeld gebracht. Het instrument wordt ingevuld door de cliënt (zelfrapportage) of door de cliënt en behandelaar/begeleider samen.7 De I.ROC werd ontwikkeld in nauwe samenwerking met professionals en cliënten. Het meetinstrument is onderdeel van een meer uitgebreide methodiek, waarbij ook concrete en haalbare doelen voor de behandeling worden geformuleerd op basis van de I.ROC-uitkomsten op de diverse levensgebieden. Er is tevens een stappenplan beschikbaar om deze behandeldoelen te realiseren.7

Over de psychometrische kenmerken van de I.ROC is internationaal gepubliceerd door diverse auteurs. Vanuit Penumbra in Schotland vond het eerste validatieonderzoek plaats.7-9 Daarna volgde de Nederlandse vertaling en validatie-onderzoek naar de Nederlandse I.ROC.10-12 De validatieonderzoeken in Schotland en Nederland lieten positieve resultaten zien ten aanzien van de betrouwbaarheid (interne consistentie en test-hertest) en validiteit (hoge samenhang met andere meetinstrumenten en acceptabele gevoeligheid voor verandering). Uit (nog ongepubliceerde) gegevens van GGZ Breburg (schriftelijke mededeling, dr. M.J. Metz, 2024) weten we dat de bij een directe vergelijking de gevoeligheid voor verandering van de I.ROC niet onderdoet voor die van de Symptom Questionnaire (SQ-48).13 Dit komt overeen met onderzoek waarin men een toename in totaalscore op de I.ROC rapporteerde na 10-22 weken behandeling met een effectgrootte (ES) van 0,44, meer dan met de Recovery Assessment Scale (RAS); ES = 0,38).11,14 Een artikel is in voorbereiding met resultaten van vervolgonderzoek naar de betrouwbaarheid, factorstructuur en convergente validiteit van de I.ROC, gebaseerd op gegevens van de ggz-populatie.

Normgegevens voor de Nederlandse I.ROC zijn echter nog niet voorhanden. Met dit artikel willen wij voorzien in deze normgegevens, uitgedrukt op universele schalen in de vorm van T-scores en percentielrangordescores (PR-scores), met de Nederlandse bevolking als referentiegroep. Een artikel over de betrouwbaarheid, factorstructuur, de convergente validiteit en de gevoeligheid voor verandering is in voorbereiding.

Waarom T- en PR-scores?

We gebruiken talloze zelfrapportagemeetinstrumenten in de ggz en elk meetinstrument heeft zijn eigen schaal. Het resultaat wordt uitgedrukt in een ruwe score (de somscore of de gemiddelde score van de antwoorden op vragen) en dit leidt tot een unieke schaal voor elk meetinstrument. Het vereist kennis en enige ervaring met het instrument om gevoel te krijgen bij een score: is de score gemiddeld, hoog of laag? De ruwe score zegt eigenlijk pas iets wanneer we die vergelijken met scores van een referentiegroep, zoals de algemene bevolking of cliëntengroepen. Voor de juiste interpretatie van de meetresultaten publiceren vragenlijstontwikkelaars vaak normtabellen, waarin je op kunt zoeken hoe gewoon of uitzonderlijk een score is. Normtabellen delen ruwe scores op in klassen (bijvoorbeeld: zeer hoog, hoog, boven gemiddeld, gemiddeld, beneden gemiddeld, laag, zeer laag). Dit kan beter en verfijnder.

Eerder hebben we gepleit voor het gebruik van twee universele schalen: T-scores en PR-scores. Beide schalen drukken met een getal uit hoe uitzonderlijk of hoe gewoon een score op een meetinstrument is.15-17 Ze komen zo in de plaats van de gebruikelijke normering van scores in veel grovere scoreklassen. De T-score is uit te leggen aan cliënten als ‘deze score geeft met een standaardmaat de plek van uw resultaat weer ten opzichte van een vergelijkingsgroep van de Nederlandse bevolking’. De PR-score kan uitgelegd worden als: ‘Deze score geeft aan hoeveel procent van de vergelijkingsgroep een lagere score heeft dan u’.

Een belangrijk verschil tussen T- en de PR-scores is dat T-scores een intervalschaal hebben, terwijl PR-scores slechts volgordelijk (ordinaal) zijn. Dit impliceert dat je T-scores van elkaar mag aftrekken, bijvoorbeeld om een getalswaarde toe te kennen aan de mate van vooruitgang tijdens behandeling (Delta T). Bij PR-scores is dat niet toegestaan.18 De PR-score is makkelijker te begrijpen, maar de T-score is breder te gebruiken. Bij intelligentietests en in het onderwijs zijn deze universele schalen al heel gebruikelijk; denk bijvoorbeeld aan de IQ-score, een gestandaardiseerde score met een gemiddelde van 100 en een standaarddeviatie van 15. En de PR-score kennen we onder meer van de Eindtoets Basisonderwijs, beter bekend als de CITO-toets.19

Brede invoering van universele schalen maakt de interpretatie van de uitslag, de vergelijking met andere instrumenten en de communicatie met collega’s én cliënten over uitkomsten van meetinstrumenten eenvoudiger. Dit is relevant voor de praktijk van de ggz, zowel voor de professional als voor de cliënt. Tijdens behandeltrajecten worden, via routine outcome monitoring (ROM), vragenlijsten over klachten en herstel periodiek afgenomen. Hiermee kunnen de cliënt en de professional samen de behandeling evalueren en afspraken maken over vervolgstappen.20-21 In toenemende mate hebben cliënten ook zelf inzage in de ROM-uitkomsten. Een uniforme en daarmee beter te begrijpen weergave van de uitkomsten van meetinstrumenten, zoals van de I.ROC, wordt hiermee steeds belangrijker.17

In dit artikel vergelijken we, op basis van I.ROC-data die werden verzameld in een representatieve steekproef van de algemene Nederlandse bevolking, twee benaderingen om T-scores te verkrijgen. We doen een voorstel voor omzetting van ruwe I.ROC-scores naar universele schalen.

Methode

Steekproef

Voor de dataverzameling maakten we gebruik van het LISS-panel (Langlopende Internet Studies voor Sociale wetenschappen) van Centerdata.22 In een eerdere studie (preprint) is bij een aselecte steekproef van 3246 LISS-panelleden de I.ROC uitgezet; n = 2459 hebben de I.ROC volledig ingevuld (75,8%).23 88 personen deden dat binnen 3 minuten, wat kan wijzen op erg vluchtig antwoorden (satisficing questionnaires).24 De data van deze respondenten werden uit het bestand verwijderd, waarmee er 2371 overbleven. Gegevens over sekse of leeftijd ontbraken bij nog eens 5 personen, waardoor 2366 respondenten resteerden met complete gegevens. Van de respondenten waren 1274 vrouw (53,8%). De gemiddelde leeftijd was 53,9 jaar (SD: 17,7; uitersten: 18-94). Voor een vergelijking van leeftijdsgroepen werden 3 ongeveer even grote subgroepen onderscheiden: 18-46, 46-65 en 66-94 jaar. Uitgebreide informatie over de steekproef is te vinden via Centerdata (www.lissdata.nl).22

Meetinstrument, de I.ROC

De items van de I.ROC worden per item op een scherm of als een pagina in een boekje gepresenteerd, vergezeld van een aantal kernbegrippen om uit te leggen wat het levensgebied omvat. De 12 levensgebieden van de I.ROC zijn onderverdeeld in 4 hoofd domeinen (home, opportunity, people en empowerment; HOPE). Onder deze 4 domeinen vallen de volgende 12 levensgebieden:

i. home (een veilige plek om te leven: 1. geestelijke gezondheid, 2. dagelijkse vaardigheden, 3. je veilig en op je gemak voelen);

ii. opportunity (zinvolle levensinvulling: 4. lichamelijke gezondheid, 5. bewegen en actief zijn, 6. zingeving en levensdoelen);

iii. people (vrienden, vertrouwelingen en anderen die steun bieden: 7. zelfwaardering, 8. persoonlijk netwerk, 9. sociaal netwerk);

iv. empowerment (regie voeren over eigen leven: 10. hoop voor de toekomst, 11. zelfmanagement, 12. participatie en controle).

Elk van de 12 items heeft 6 antwoordopties: (1 = nooit, 2 = bijna nooit, 3 = soms, 4 = regelmatig, 5 = bijna altijd, 6 = altijd). Zie figuur 1.

De respondent (cliënt, zorgvrager of burger) wordt gevraagd om op een 6-puntsschaal een oordeel te geven over de afgelopen drie maanden. Bijvoorbeeld: ‘In de afgelopen drie maanden voelde ik me geestelijk en emotioneel goed, gezond en gelukkig.’ Een hogere score duidt op beter functioneren op de levensgebieden en meer welbevinden. Scores op de 12 items werden voor dit onderzoek opgeteld tot een totaalscore (uitersten: 12-72).

Figuur 1. Overzicht van de items en domeinen die met de I.ROC nagevraagd worden

Statistische analyse

PR-scores

Percentielrangordescores (PR-scores) worden direct berekend vanuit de ruwe scores en drukken de uitzonderlijkheid van een score uit op een schaal van 0 tot 100. Ze geven aan welk percentage van de referentiegroep een lagere score heeft.25,26 De PR-score is gelijk aan het percentage van de oppervlakte onder de frequentieverdeling van scores links van de ruwe score (zie figuur 2).

De PR-score wordt voor elke ruwe score berekend met de volgende formule:

PR = (CumF(RS) – 0,5*F(RS))/N

Daarbij staat CumF(RS) voor de cumulatieve frequentie van de ruwe score en alle lagere scores, F(RS) staat voor de frequentie van de ruwe score zelf en N voor het totaal aantal scores in de steekproef.26

We demonstreren de formule aan de hand van een rekenvoorbeeld. Voor elke ruwe score wordt eerst de frequentie van voorkomen bepaald bij een normatieve referentiegroep. Zo hadden in ons I.ROC-databestand 114 deelnemers een ruwe score van 57 en 1325 deelnemers een score van 57 of lager. Deze frequenties worden omgezet naar proporties (n = 114 van de 2366 deelnemers: F(57) = 4,8%) en de cumulatieve proportie (n = 1325; CumF(57) = 56,0%). De cumulatieve proportie min de helft van de proportie die precies deze score heeft, 56,0 – (4,8%/2 = 2,4%), geeft de PR-score: 53,6 of afgerond naar een geheel getal PR = 54.

T-scores

De T-score is al in 1922 door McCall voorgesteld als alternatief voor de gewone standaardscore of Z-score.27 Deze standaardscore wordt berekend door van de ruwe score het populatiegemiddelde af te trekken en het resultaat te delen door de standaarddeviatie van de populatie. Dat geeft een score tussen grofweg -4 en 4 met een gemiddelde van 0. Elk punt op de schaal is een standaarddeviatie verwijderd van naastliggende punten (zie figuur 2). De T-score is ook een standaardscore en wordt in het eenvoudigste geval berekend door de Z-score met 10 te vermenigvuldigen en er 50 punten bij op te tellen. Zo ontstaat een schaal van grofweg 10 tot 90. Deze eenvoudige benadering geeft echter afwijkende waarden wanneer de ruwe scores niet normaal verdeeld zijn. In dat geval zijn gemiddelde en spreiding niet voldoende om de scoreverdeling te beschrijven.

Bij niet-normaal verdeelde ruwe scores is het zaak eerst de scores te normaliseren.15 Dat kan met een benadering volgens de itemresponstheorie (IRT) of met een benadering die is gebaseerd op de frequentieverdeling van de scores (rankit). Omdat de IRT-benadering extra eisen stelt aan de psychometrische kenmerken van het instrument, zoals unidimensionaliteit, achtten we het beter om bij de I.ROC de rankitmethode toe te passen. Volgens de rankitmethode worden de ruwe scores op de I.ROC eerst omgezet naar PR-scores. Deze worden vervolgens omgezet naar Z- en T- scores. Wanneer op deze wijze T-scores zijn verkregen, kan een oversteektabel van ruwe scores naar T-scores worden opgesteld. Voor de T-scoreschaal is 50 het middelpunt, 68% van alle mensen heeft een score tussen 40 en 60, 95% tussen 30 en 70 en bijna iedereen (99,7%) scoort tussen 20 en 80 (zie figuur 2).

Figuur 2. De normaalverdeling, Z-scores, T-scores (curvilineair), PR-scores, betekenisverlening in een label en de schaal voor de ruwe I.ROC-totaalscore

Figuur 2 illustreert hoe T- en PR-scores zich verhouden tot Z-scores indien die laatste normaal verdeeld zijn. Ook de I.ROC-schaal voor de ruwe totaalscore is in deze figuur opgenomen. Figuur 2 laat zien dat rond de gemiddelde score van 50 de stappen op de PR-scoreschaal bijna een factor 4 groter zijn dan op de T-scoreschaal: T45-T55 = PR31-PR69. Verschillen in ruwe scores of T-scores worden rond dit gemiddelde met de PR-schaal als het ware uitvergroot. Aan de uiteinden van de schaal is het omgekeerde het geval en worden verschillen in T-scores samengedrukt met de PR-schaal. Het interval T70-T80 van 10 T-punten komt overeen met een interval van 2,2 PR-punt: PR97,7-PR99,9.

T-scores kunnen beschouwd worden als intervalschaal, PR-scores niet. PR-scores zijn volgordelijke waarden op een ordinale schaal. Een consequentie hiervan is dat vooruitgang richting herstel wel met een verschilscore als Delta T kan worden uitgedrukt, maar niet met een verschilscore op de PR-schaal. Een verschuiving van 10 punten op de PR-schaal heeft uiteenlopende betekenissen, afhankelijk van de positie op de schaal.

In dit onderzoek vergeleken we twee manieren van bepalen van T-scores: 1. T-scores volgens een lineaire formule op basis van de gemiddelde en standaarddeviatie van de ruwe scores en 2. genormaliseerde T-scores volgens een curvilineaire formule die we vonden met de rankitbenadering. De rankitmethode bestaat eruit dat in een databestand van een steekproef eerst voor alle ruwe scores PR-scores worden bepaald. T-scores kunnen vervolgens berekend worden door gebruik te maken van de vaste relatie tussen PR-scores en standaardscores. Zo kan een tabel gemaakt worden met ruwe scores, T- en PR-scores. Met curve-fitting kan de formule worden gevonden die de relatie tussen ruwe scores en T-scores (en tussen ruwe scores en PR-scores) optimaal benadert. Zo’n tabel of formule is nodig om de score van een individuele cliënt om te zetten naar een T-score. Een formule kan bijvoorbeeld ingebouwd worden in software die gebruikt wordt om de I.ROC af te nemen of te scoren en die de ruwe score, PR-score en T-score kan geven.

Alle analyses voor dit onderzoek voerden we uit met R. Eerder publiceerden we een gedetailleerde beschrijving van de methode en de gebruikte R-code.15

Resultaten

Uit de resultaten bleek dat ruwe totaalscores op de I.ROC al behoorlijk normaal verdeeld waren. De gemiddelde score op de I.ROC was 55,31 (SD: 8,76). De scheefheid (skewness) was -0,56; de gepiektheid (kurtosis) was 0,28. Deze waarden vielen binnen de gewenste waarden van -1 en 1, om uit te kunnen gaan van een normaalverdeling. De licht negatieve scheefheid was terug te voeren op een geringe overmaat aan extreem lage scores. De gemiddelde T-score na normaliseren was 49,98 (SD: 9,94; scheefheid: -0,04; gepiektheid: -0,12); dit lag zeer nabij het ideaal van een normaalverdeling met gemiddeld 50 (SD: 10). Volgens een t-test (tweezijdig) was er geen significant sekseverschil in I.ROC-scores (p = 0,58): de gemiddelde score bij vrouwen (n = 1274) was 55,41 (SD: 8,65) en bij mannen (n = 1092) 55,20 (SD: 8,90). Tevens was er geen significant verband tussen leeftijd en totaalscore op de I.ROC (r = 0,00; p = 0,95) en ook niet tussen drie leeftijdsgroepen volgens een variantieanalyse (p = 0,503). De gemiddelde scores bij de leeftijdsgroepen waren: bij 18-46 jaar (n = 804): 55,10 (SD: 8,92); bij 47-65 jaar (n = 811): 55,59 (SD: 8,80); en bij 66 en ouder (n = 751): 55,22 (SD: 8,55).

Figuur 3 laat de relatie zien van de ruwe scores op de x-as en T-scores op de y-as volgens een lineaire formule (T = 1,14*RS-13,13), berekend op grond van gemiddelde en SD (de blauwe doorgetrokken lijn). Tevens zijn met bolletjes de T-scores weergegeven die volgens de rankitmethode werden bepaald (genormaliseerde T-scores). Ten slotte is met een rode lijn aangegeven welke T-scores de formule voor een curvilineaire relatie opleverde. De lineaire formule gaf op zich al een goede benadering van T-scores, maar in de lage scorerange leidde de lineaire formule tot een onderschatting van de T-score die wel tot 6,3 punten opliep (vergelijk bijvoorbeeld de lineaire met de rankitmethode bij een ruwe score van 25 in tabel 1). Ook bij extreem hoge scores was er een afwijking van 2 tot 3 T-scorepunten. De curvilineaire lijn benaderde de genormaliseerde (rankit-)T-scores beter.

De formule voor de relatie tussen ruwe scores en rankit-T-scores werd bepaald met curve-fitting als een derdegraads polynoom (zie de noot onder tabel 1). Deze formule kan gebruikt worden om in te bouwen in vragenlijstsoftware om de I.ROC te scoren. De T-scores die deze formule opleverde, zijn weergegeven in de kolom ‘curvilineair’ in tabel 1. Vanaf ruwe score 21 (de laagste score in deze steekproef) gaf deze curvilineaire formule een erg goede benadering van de met rankit gevonden T-scores, wat ook te zien is in figuur 3. Ten slotte werd ook met curve-fitting een formule bepaald voor de relatie tussen ruwe scores en PR-scores zoals die weergegeven zijn in tabel 1.

Tabel 1. Oversteektabel van ruwe scores, T-scores en PR-scores

	T-scores			label	PR- score	label
Ruwe Score	lineair	Rankit	curvilineair
12	0,6	-	4,0	-	-	ZL
13	1,7	-	5,5	-	-	ZL
14	2,8	-	7,0	-	-	ZL
15	4,0	-	8,4	-	-	ZL
16	5,1	-	9,8	-	-	ZL
17	6,3	-	11,1	-	-	ZL
18	7,4	-	12,4	-	-	ZL
19	8,6	-	13,6	-	-	ZL
20	9,7	-	14,8	-	-	ZL
21	10,8	14,7	16,0	ZL	0	ZL
22	12,0	-	17,1	-	-	ZL
23	13,1	17,8	18,2	ZL	0	ZL
24	14,3	19,8	19,3	ZL	0	ZL
25	15,4	21,7	20,4	ZL	0	ZL
26	16,5	-	21,4	-	-	ZL
27	17,7	22,9	22,4	ZL	0	ZL
28	18,8	23,5	23,4	ZL	0	ZL
29	20,0	24,1	24,4	ZL	0	ZL
30	21,1	25,5	25,3	ZL	1	ZL
31	22,3	26,6	26,3	ZL	1	ZL
32	23,4	27,3	27,2	ZL	1	ZL
33	24,5	28,1	28,1	ZL	1	ZL
34	25,7	28,9	29,0	ZL	2	ZL
35	26,8	29,6	29,9	ZL	2	ZL
36	28,0	30,6	30,8	L	3	ZL
37	29,1	31,7	31,7	L	3	ZL
38	30,2	32,8	32,5	L	4	ZL
39	31,4	33,6	33,4	L	5	ZL
40	32,5	34,3	34,3	L	6	ZL
41	33,7	35,0	35,1	L	7	ZL
42	34,8	35,8	36,0	L	8	ZL
43	35,9	36,6	36,9	L	9	ZL
44	37,1	37,5	37,8	L	10	L
45	38,2	38,5	38,7	L	12	L
46	39,4	39,5	39,6	L	15	L
47	40,5	40,4	40,5	Ben	17	L
48	41,7	41,3	41,5	Ben	19	L
49	42,8	42,3	42,4	Ben	22	L
50	43,9	43,4	43,4	Ben	25	Ben
51	45,1	44,3	44,4	Ben	29	Ben
52	46,2	45,3	45,4	G of H	32	Ben
53	47,4	46,4	46,4	G of H	36	Ben
54	48,5	47,4	47,5	G of H	40	G
55	49,6	48,5	48,6	G of H	44	G
56	50,8	49,6	49,7	G of H	49	G
57	51,9	50,9	50,8	G of H	53	G
58	53,1	52,1	52,0	G of H	58	G
59	54,2	53,4	53,2	G of H	63	Bov
60	55,4	54,9	54,5	G of H	69	Bov
61	56,5	56,3	55,8	G of H	73	Bov
62	57,6	57,6	57,1	G of H	78	H
63	58,8	59,0	58,5	G of H	82	H
64	59,9	60,3	59,9	G of H	85	H
65	61,1	61,5	61,3	G of H	88	H
66	62,2	62,8	62,8	G of H	90	ZH
67	63,3	64,1	64,4	G of H	92	ZH
68	64,5	65,7	66,0	G of H	94	ZH
69	65,6	67,4	67,6	G of H	96	ZH
70	66,8	68,8	69,3	G of H	97	ZH
71	67,9	70,3	71,1	G of H	98	ZH
72	69,1	73,8	72,9	G of H	99	ZH

NB: ZL = Zeer laag, L = Laag, Ben = Beneden gemiddeld, G = Gemiddeld, Bov = Boven gemiddeld, H = Hoog, ZH = zeer hoog; een liggend streepje geeft aan dat deze ruwe score niet voorkomt in het bronbestand (maar T- en PR scores kunnen met de curvilineaire benadering toch worden bepaald).

Figuur 3. De bolletjes geven de relatie weer tussen ruwe scores (x-as) en op rankit gebaseerde T-scores (y-as); de lijnen geven de relatie volgens de lineaire en de curvilineaire formule

De drie kolommen met T-scores in tabel 1 maken een gedetailleerde vergelijking mogelijk van hetgeen de drie benaderingen opleverden. De rankitbenadering gaf genormaliseerde T-scores op basis van de feitelijke frequentie van ruwe scores in de steekproef. Vergeleken met de rankit-T-scores gaf de lineaire benadering bij lage scores (RS < 32) en bij de hoogste score (RS = 72) een onderschatting van bijna 4 punten. De curvilineaire formule benaderde de rankit-T-scores beter (zie ook figuur 2). In tabel 1 is tevens de PR-score weergegeven zoals gevonden in het databestand. Dit is het percentage respondenten met een lagere score dan de ruwe score plus de helft van het percentage met precies de ruwe score. De grens voor de laagste 5% lag bij een ruwe score van RS = 39. Bij de ruwe score 50 was de PR-score 25, een ruwe score van 56 correspondeerde met PR = 49, et cetera.

Als een hogere score meer gezondheid of herstel betekent, wordt als afgrenzing voor klinisch significante verandering (clinical significant change; CSC) op de T-scoreschaal vaak een T > 45 gehanteerd (https://www.healthmeasures.net/score-and-interpret/interpret-scores/promis/promis-score-cut-points). Dat stemt overeen met een ruwe score van RS > 51. Ter vergelijking: de enige data over CSC (Engelse data van Rudd, gepubliceerd door Baufeldt en Dawson in hun tabel 1) leveren als grenswaarde een ruwe score van minstens RS > 49, wat correspondeert met een grenswaarde T > 42.28

Figuur 4 laat voor de I.ROC de relatie zien tussen ruwe scores, T- en PR-scores. Door de klokvorm van de normaalverdeling was er een sigmoïde (s-vormige) relatie tussen PR-scores en T-scores; de figuur illustreert dat de relatie tussen T- en PR-scores rond het gemiddelde lineair was (PR = 4*T – 150), maar dat bij extreem hoge of extreem lage T-scores de PR-scores dicht bij elkaar lagen. Er wordt in de figuur ook een betekenis gegeven aan de uitslagen in scoreklassen. Die verschilde enigszins voor T- en PR-scores (zie ook tabel 1).

Figuur 4. Relatie van ruwe scores (weergegeven op de lijn in de figuur), genormaliseerde T-scores (x-as) en PR-scores (y-as) voor de totaalscore op de I.ROC

Discussie

De belangrijkste bevindingen van dit onderzoek zijn dat berekening volgens een lineaire vergelijking en met de rankitbenadering in het geval van de I.ROC elkaar niet veel ontlopen. Ze leiden alleen in de lage en in de hoge regionen van de schaal tot verschillende T-scores. De ruwe scores van de I.ROC waren al bij benadering normaal verdeeld en dan zijn het gemiddelde en de standaardafwijking goede uitgangspunten voor een lineaire omzetting en is er weinig verschil met de curvilineaire methode. We kennen echter ook voorbeelden van veelgebruikte meetinstrumenten, waarbij de lineaire benadering spaak loopt, zoals de Minnesota Multiphasic Personality Inventory (MMPI) of de Brief Symptom Inventory (BSI) en de Vierdimensionele Klachtenlijst (4DKL).15,29 Hier biedt een curvilineaire omzetting uitkomst.

Bij de I.ROC volstaat voor de meeste situaties de toepassing van een eenvoudige formule om tot T-scores te komen: T = 1,14*RS – 13,13. Deze formule kan heel eenvoudig ‘met de hand’ worden toegepast. Echter, bij lage ruwe scores (< 30) geeft de lineaire formule een aanzienlijk lagere T-score dan de rankitbenadering (zie figuur 3) en voor inbouw in scoringssoftware is de ingewikkelde en preciezere curvilineaire formule te prefereren. Een op rankit gebaseerde T-score opzoeken in tabel 1 of berekenen met een curvilineaire formule geeft het beste resultaat, want er wordt zo optimaal rekening gehouden waar ruwe scores op de I.ROC afwijken van een normale verdeling. Wie niet de T-score wil opzoeken of geen gebruik maakt van software om de I.ROC af te nemen kan met een simpele formule (T = 1,14*RS – 13,13) toch een T-score berekenen die voor de meeste ruwe I.ROC-scores voldoet.

Nut van de T- en PR-scores

Een uitgebreid pleidooi voor T- en PR-scores is elders verwoord.17 Kort samengevat, komt het erop neer dat omzetten van scores naar een universele schaal de communicatie over vragenlijstuitslagen tussen professionals onderling en tussen professionals en hun cliënten vereenvoudigt. Een algemene interpretatie van de T-scoreschaal voor scores waarbij een hoge score gezondheid weergeeft, is weergegeven in figuur 5 (vgl. https://www.healthmeasures.net/score-and-interpret/interpret-scores/promis/promis-score-cut-points).

De grensscore van T = 45 geldt voor meer meetinstrumenten waarbij een hogere score voor meer herstel of meer welbevinden staat (zoals De Beurs e.a. eerder beschreven voor de Mental Health Continuum-Short Form; MHC-SF).30 Het resultaat uit onze studie dat 29% van de bevolking op de I.ROC een benedengemiddelde T-score heeft (T < 45, corresponderend met een ruwe score RS < 52), komt goed in de buurt van schattingen van de 12-maandsprevalentie van psychische stoornissen die bij het Trimbos-instituut (20-25%) uit hun NEMESIS-onderzoeken naar voren komen.31,32 Dit ondersteunt de validiteit van de I.ROC als meetinstrument en de bruikbaarheid van de grensscore van T < 45.

Figuur 5. Een algemene interpretatie van de T-scores voor functioneren

Bij een herstelschaal als de I.ROC ligt de grens tussen ziek en gezond bij T < 45 (ruwe score < 51) en duidt een hogere score op meer herstel.

Sterke kanten en beperkingen

We beschikten over een ruime set aan gegevens, vanuit een representatieve steekproef van de algemene bevolking (LISS-panel), die bovendien door de onderzoekers geschoond werden van (te) snel ingevulde vragenlijsten. Lineaire en genormaliseerde T-scores werden op een zorgvuldige manier vastgesteld en formules voor de T- en de PR-score werden met geavanceerde statistiek (rankit, curve-fitting) bepaald. De resultaten brengen voor- en nadelen van de verschillende benaderingen om tot T-scores te komen aan het licht.

Voor de validiteit van normgegevens is het uiterst belangrijk dat de steekproef representatief was voor de Nederlandse bevolking. Huishoudens die niet over digitale middelen beschikten om vragenlijsten in te vullen, werden hierin vanuit CenterData Tilburg University gefaciliteerd. Ondanks deze inspanningen zijn mensen die geen Nederlands spreken en die minder digitale vaardigheden hebben waarschijnlijk ondervertegenwoordigd. Deze groep rapporteert over het algemeen een slechtere gezondheid, waardoor de gegevens van de steekproef mogelijk enigszins vertekend zijn met minder lage scores.33

Een andere beperking is dat we in dit artikel alleen normgegevens van de algemene populatie presenteren. Op dit moment worden in verscheidene ggz-instellingen I.ROC-gegevens verzameld bij diverse cliëntengroepen. Dat zal ons in staat stellen in de nabije toekomst te onderzoeken of er verschillen zijn in (het profiel van) scores op de I.ROC in diverse ggz-settings. Als er betekenisvolle verschillen tussen diverse cliëntengroepen gevonden worden, dan worden daar binnenkort normgegevens voor beschikbaar gesteld.

Conclusie

Uit eerder onderzoek komt de I.ROC naar voren als een betrouwbaar, valide en bruikbaar meetinstrument. De meetpretentie van de I.ROC is breed en past goed bij de visie dat herstel op uiteenlopende aspecten van functioneren geïnventariseerd moet worden. T-scores zijn nuttig en zijn voor de I.ROC te bepalen met een eenvoudige formule. Voor inbouw in vragenlijstsoftware raden we echter toepassing van de complexere en preciezere formule aan. Ook zijn T- en PR-scores op te zoeken in de oversteektabel bij dit artikel (tabel 1). Gebruik van universele schalen wordt gepropageerd als een goede aanpak om uitvoering van ROM in de klinische praktijk te stimuleren, zowel om verschillende vragenlijsten naast elkaar te kunnen gebruiken als om de uitkomsten op een begrijpelijke manier te presenteren voor professionals én cliënten.

Literatuur

1 Slade M, Amering M, Farkas M, e.a. Uses and abuses of recovery: implementing recovery-oriented practices in mental health systems. World Psychiatry 2014; 13: 12-20.

2 Davidson L, Roe D. Recovery from versus recovery in serious mental illness: One strategy for lessening confusion plaguing recovery. J Ment Health 2007; 16: 459-70.

3 Leamy M, Bird V, Boutillier CL, e.a. Conceptual framework for personal recovery in mental health: systematic review and narrative synthesis. Br J Psychiatry 2011; 199: 445-52.

4 Westerhof GJ, Keyes CL. Geestelijke gezondheid is meer dan de afwezigheid van geestelijke ziekte. Maandblad Geestelijke Volksgezondheid 2008; 63: 808-20.

5 Huber M, Knottnerus JA, Green L, e.a. How should we define health? BMJ 2011; 343: 235-7.

6 Huber M, van Vliet M, Boers I. Heroverweeg uw opvatting van het begrip ‘gezondheid’. Ned Tijdschr Geneeskd 2016; 160: A7720.

7 Monger B, Hardie SM, Ion R, e.a. The individual recovery outcomes counter: preliminary validation of a personal recovery measure. The Psychiatrist 2013; 37: 221-7.

8 Dickens GL, Rudd B, Hallett N, e.a. Factor validation and Rasch analysis of the individual recovery outcomes counter. Disabil Rehabil 2019; 41: 74-85.

9 Rudd B, Karatzias T, Bradley A, e.a. Personally meaningful recovery in people with psychological trauma: Initial validity and reliability of the Individual Recovery Outcomes Counter (I. ROC). Int J Ment Health Nurs 2020; 29: 387-98.

10 Beckers T, Koekkoek B, Hutschemaekers G, e.a. Measuring personal recovery in a low-intensity community mental healthcare setting: validation of the Dutch version of the Individual Recovery Outcomes Counter (I. ROC). BMC Psychiatry 2022; 22: 1-10.

11 Roze KC, Tijsseling C, Rudd B, e.a. Measuring recovery in deaf, hard-of-hearing, and tinnitus patients in a mental health care setting: Validation of the I. ROC. The Journal of Deaf Studies and Deaf Education 2020; 25: 178-87.

12 Sportel BE, Aardema H, Boonstra N, e.a. Measuring recovery in participants with a schizophrenia spectrum disorder: validation of the Individual Recovery Outcomes Counter (I.ROC). BMC Psychiatry 2023; 23: 296.

13 Carlier I, Schulte-Van Maaren Y, Wardenaar K, e.a. Development and validation of the 48-item Symptom Questionnaire (SQ-48) in patients with depressive, anxiety and somatoform disorders. Psychiatry Res 2012; 200: 904-10.

14 Corrigan PW, Salzer M, Ralph, RO, e.a. Examining the factor structure of the Recovery Assessment Scale, Schizophr Bull 2004; 30: 1035-41.

15 de Beurs E, Oudejans S, Terluin B. A common measurement scale for scores from self-report instruments in mental health care: T scores with a normal distribution. Eur J Psychol Assess 2024; 40: 101-16.

16 de Beurs E, Boehnke J, Fried EI. Common measures or common metrics? A plea to harmonize measurement results. Clin Psychol Psychother 2022; 29: 1755-67.

17 de Beurs E, Boehnke J, Fried EI. Universele schalen voor testuitslagen: een pleidooi voor T-scores en percentielrangordescores. Gedragstherapie, tijdschrift voor gedragstherapie en cognitieve therapie 2022; 57; online.

18 Drenth P, Sijtsma K. Testtheorie: inleiding in de theorie van de psychologische test en zijn toepassingen. Houten: Bohn Stafleu Van Loghum; 1996.

19 Uiterwijk JH, Theunissen TJJM. Verantwoording eindtoets basisonderwijs 1997. Arnhem: Cito; 2001.

20 de Beurs E, den Hollander-Gijsman ME, van Rood YR, e.a. Routine outcome monitoring in the Netherlands: Practical experiences with a web-based strategy for the assessment of treatment outcome in clinical practice. Clin Psychol Psychother 2011; 18: 1-12.

21 Metz M, van Bueren M, van Dijk M, e.a. Samen beslissen met ROM als informatiebron: Kwalitatief onderzoek onder cliënten. Tijdschr Psychiatr 2023; 65: 301-7.

22 Scherpenzeel AC. ‘True’ longitudinal and probability-based internet panels: evidence from the Netherlands. In: Das M, Ester P, Kaszmirek L, red. Social and behavioral research and the internet. Londen: Routledge; 2018. p. 77-104.

23 van Druten VP, Metz MJ, Mathijssen JJP, e.a. Measuring positive health using the My Positive Health (MPH) and Individual Recovery Outcomes Counter (I.ROC) dialogue tools: a panel study on measurement properties in a representative general Dutch population. MedRxiv, 21 februari 2024 (preprint). doi: 10.1101/2024.02.21.24301090.

24 Roberts C, Gilbert E, Allum N, e.a. Research synthesis: Satisficing in surveys: A systematic review of the literature. Public Opin Q 2019; 83: 598-626.

25 Kurtz AK, Mayo ST. Percentiles and percentile ranks. statistical methods in education and psychology: New York: Springer; 1979. p. 145-63.

26 Crawford JR, Garthwaite PH. Percentiles please: The case for expressing neuropsychological test scores and accompanying confidence limits as percentile ranks. The Clinical Neuropsychologist 2009; 23: 193-204.

27 McCall WA. How to measure in education. New York: MacMillan; 1922.

28 Baufeldt AL, Dawson DL. Mental health recovery using the Individual Recovery Outcomes Counter (I. ROC) in a community rehabilitation team: a service evaluation. J Psychosoc Rehabil Ment Health 2023; 10: 355-66.

29 Tellegen A, Ben-Porath YS. The new uniform T scores for the MMPI-2: Rationale, derivation, and appraisal. Psychol Assess 1992; 4: 145.

30 de Beurs E, Kosterman S, Anten S, e.a. Psychometrische evaluatie van de Mental Health Continuum – Short Form (MHC-SF): construct validiteit, responsiviteit voor verandering, normen en T-scores. Gedragstherapie, tijdschrift voor gedragstherapie en cognitieve therapie 2022; 55: 131-55.

31 de Graaf R, ten Have M, van Gool C, e.a. Prevalentie van psychische aandoeningen en trends van 1996 tot 2009; resultaten van NEMESIS-2. Tijdschr Psychiatr 2012; 54: 27-38.

32 Ten Have M, Tuithof M, van Dorsselaer S, e.a. Prevalence and trends of common mental disorders from 2007‐2009 to 2019‐2022: results from the Netherlands Mental Health Survey and Incidence Studies (NEMESIS), including comparison of prevalence rates before vs. during the COVID‐19 pandemic. World Psychiatry 2023; 22: 275-85.

33 Reijneveld SA. Reported health, lifestyles, and use of health care of first generation immigrants in The Netherlands: do socioeconomic factors explain their adverse position? J Epidemiol Community Health 1998; 52: 298-304.

Download PDF

Twitter Facebook LinkedIn Mail WhatsApp

Auteurs

Edwin de Beurs, hoogleraar Klinische psychologie, Universiteit Leiden en senior onderzoeker, Arkin GGZ, Amsterdam.

Margot Metz, senior onderzoeker en verpleegkundige, GGz Breburg en Tranzo Academische Werkplaats voor Zorg en Welzijn, Tilburg University.

Lenny Nahar-van Venrooij, senior onderzoeker en epidemioloog, Jeroen Bosch Ziekenhuis, Den Bosch/Tranzo Academische Werkplaats Kwaliteit van Huisarts en Ziekenhuiszorg, Tilburg University.

Correspondentie

Prof. dr. Edwin de Beurs (Edwin.de.Beurs@arkin.nl).

Geen strijdige belangen meegedeeld.

Het artikel werd voor publicatie geaccepteerd op 1-5-2024.

Citeren

Tijdschr Psychiatr. 2024;66(6):356-361