Centrale proeven: een meerwaarde of toch niet?

Roger Standaert

Een verhaal uit het verleden

Tot begin van de jaren negentig van de vorige eeuw bestonden er in het lager onderwijs de zogenaamde kantonnale examens. Het waren gestandaardiseerde toetsen voor rekenen en taal die door de inspectie werden afgenomen.

Ik herinner mij een bezorgde buurman, een aannemer die mij als deskundige onderwijsmens percipieerde, zijn beklag kwam maken over de immense hoeveelheid huistaken die zijn dochtertje van het zesde leerjaar te maken kreeg. Bij nader toezien bleek het te gaan om vragen uit de kantonnale toetsen van vorige jaren. De bedoeling van de school was op die kantonnale examens hoog te scoren. De resultaten werden weliswaar niet bekend gemaakt, maar in ieder kanton wisten directies en geïnteresseerde ouders wel wie er al dan niet goed scoorde op die toetsen. Op mijn advies ging de buurman in gesprek met de meester van het zesde leerjaar. Die kon er echter niet van overtuigd worden de hoeveelheid huistaken in te perken. Hij was erg fier op de hoge score van zijn school op die kantonnale examens. Mijn buurman, die in het praktische leven door de wol geverfd was, besloot dan maar om zelf de huistaken van zijn dochtertje te maken, zodat die opnieuw voldoende tijd kreeg om te ravotten alvorens naar bed te gaan. Naderhand kon de meester aan de ouders vertellen dat hun school opnieuw top was op de kantonnale examens.

Inmiddels is mijn gewezen buurman aan het genieten van een welverdiend pensioen na een lucratieve loopbaan in de bouwsector. Naar aanleiding van deze herinnering vroeg ik hem hoe zijn dochter het inmiddels stelde. Het bleek dat het toenmalige dochtertje ondertussen CEO geworden is in een grote internationale multinational. De ingreep van haar vader heeft haar blijkbaar geen achterstand voor het leven opgeleverd.

Dit verhaal is een mooie opstap om in te gaan op de plannen van de regering voor gecentraliseerde, gestandaardiseerde proeven.

Vooreerst: wat meet een toets?

Toetsen zijn uiteraard niet nieuw in het onderwijs. Bij iedere les of iedere lessenreeks ga je als leraar na of de doelen die je hebt gesteld worden bereikt. Evaluatie is een integraal onderdeel van ieder didactisch proces. Daarom lossen leerlingen oefeningen op en als ze die aankunnen, is ook het doel bereikt. Als je het bijvoorbeeld over procent berekenen hebt, dan ga je oefeningen geven in stijgende moeilijkheidsgraad: met percentages in tientallen tot honderd, dan met eenheden, verder met kommagetallen en uiteindelijk wellicht als kers op de taart, over samengestelde intrest. Telkens zie je dus wat leerlingen al dan niet kunnen. Je kan de oefeningen gewoon aanvinken. In feite kan je die oefeningen ook zien als toetsen die geïntegreerd zijn in je lespraktijk.

Er bestaat een lange praktijk om de resultaten op de oefeningen en toetsen om te zetten in cijfers. De belangrijkste reden daarvan was op een eenvoudige wijze te rapporteren over het resultaat. Iedereen weet wat een tien betekent en ook dat een vier onvoldoende is. Toetsen dienden om het leerproces van de leerling te verbeteren. Daarnaast was het ook een soort gemakkelijkheidsoplossing. Een cijfer zegt niet waarom je goed of minder goed bent en laat dus de onderliggende oorzaak voor wat ze is.

Vanaf de jaren tachtig van de vorige eeuw is er echter in het onderwijs een beweging voor meer aansprakelijkheid (in het jargon ‘accountability’) gegroeid, voornamelijk afkomstig uit de economie (althans een bepaalde opvatting daarvan). Je moet het rendement van het onderwijs kunnen meten, net zoals je kan meten hoe geldstromen van investeringen en maatregelen leiden tot meer of minder welvaart. De toegekende cijfers krijgen daardoor een andere betekenis. De huidige drang naar cijfers is van daaruit vooral gebaseerd op aansprakelijkheid, verantwoording, competitie en rangschikkingen. En op basis daarvan volgen dan vormen van beloning of sanctie. Waardeoordelen worden dus gebaseerd op cijfers. Meer nog, het cijferen wordt ook toegepast op het beoordelen van klassen, scholen en zelfs leraren. En via bepaalde internationale toetsen gaat men zelfs landen op basis van een cijfer op een vak rangschikken. Door cijfers toe te kennen, kan je ook de hele rekenkunde en statistiek erop toepassen. En zo beland je dan in het populaire jargon van meten, valideren, normeren, vergelijken, standaardiseren … En dat klinkt allemaal erg “wetenschappelijk”. In feite gaat het om een doelmiddelenomkering: het toetsen omwille van de aansprakelijkheid wordt de nieuwe norm.

Cijfers zijn ook subjectief

Hoe paradoxaal het ook klinkt, als je een cijfer zet op een gedrag, in ons geval een antwoord op een vraag, dan begint ook de subjectiviteit. Om het kwalitatief gedrag na een oefening of taak in een cijfer te zetten, ga je immers uit van aannames. Ik ga verder in op het voorbeeld van procent rekenen.

Eerste aanname: ik kies één van de mogelijke oefeningen (met verschillende moeilijkheidsgraad) als vraag.

Tweede aanname: ik zet op alle vragen van mijn toets één punt; dat rekent gemakkelijk. (Waarom één punt? Zijn alle inhouden en oefeningen even belangrijk en evenveel waard? Hoe weet je dat?)

Derde aanname: ik werk vaak met meerkeuzevragen of andere vormen van gesloten vragen omwille van de verwerking en gestandaardiseerde scoring. (Heb ik daarmee het denkproces van de leerling gevat?).

Nu ga ik een stap verder. Ik toets het leerdomein rekenen en niet alleen het procent berekenen. Dat domein is echter zeer omvangrijk. Ik moet dus uit de massale hoeveelheid van mogelijke oefeningen en vragen een keuze maken. Er komt dus een vierde aanname.

Vierde aanname: ik tracht een zo representatief mogelijke staalkaart te maken van mogelijke vragen uit het hele gebied. Ik moet dus op een toets van één of twee uur een zicht krijgen over het hele leergebied. Dan gaan we discussiëren over de validiteit van een toets. In welke mate is die representatief? Je baseert je dan op bijvoorbeeld concrete doelen of eindtermen (als die er al zijn) en op de mening van leraren. Maar het blijft een aanname en een keuze. Als instituut A een dergelijke toets maakt, dan zal die anders zijn dan wanneer instituut B die toets maakt. Je kiest voor een bepaald toetsdesign. Er worden in dat design telkens knopen doorgehakt. Maar in een andere versie zouden dat andere knopen kunnen zijn. De alleenzaligmakende toets bestaat dus niet.

Dan gaat het nog niet over de aannames waarbij men de ruwe resultaten van toetsen corrigeert voor bijvoorbeeld intelligentie, sociaal-economisch milieu, thuistaal, etniciteit, buurt … Telkens gaat het opnieuw om aannames, die je met een cijferwaarde bekleedt. Als die cijferwaarden in je formule verandert, verandert uiteraard ook de rangschikking van de resultaten.

Een toets is nuttig mits …

Een toets geeft dus steeds een benadering van de realiteit aan. De toets is de resultante van een opeenvolgende cumulatieve reeks van aannames. Hij kan wel een hulpmiddel zijn omdat je kan zien hoeveel leerlingen een vraag kunnen beantwoorden en hoeveel niet. En dan kan je gaan nadenken over wat er achter die cijfers zit. Waarom zijn er zoveel foute antwoorden? Is de vraag te moeilijk of is er onvoldoende werk van gemaakt? Cijfers geven je wel een orde van grootte over een als representatief geachte steekproef van de leerstof.

Een toets geeft je daarom wel denkstof om te zoeken wat er achter de cijfers zit. Toetsen geven je aanknopingspunten om verder in te gaan op wat er achter de cijfers zit. Ze hebben een belangrijke functie, wanneer ze gebruikt worden voor het bijsturen van de leerling, maar ook voor het bijsturen van je eigen aanpak als leraar.

Als het om selectie (waardeoordelen, rangschikkingen, overgangen, toegangseisen) gaat, zijn toetsen te beperkt. Ze zijn een noodzakelijk element maar moeten aangevuld worden met het oog en oor van de professionals. Die kennen de leerling in zijn totaliteit en kunnen hem ook in een vrij langdurig proces van interactie meer betrouwbaar inschatten.

Toetsen zijn maar één element bij een beoordeling omdat je menselijk gedrag (en dat zijn toetsuitslagen) niet zomaar in natuurwetenschappelijke schalen kan omzetten zoals meters, graden, frequenties, voltages en noem verder maar op. In de natuurwetenschappen is een meting vergelijkbaar in de meeste situaties en overal in de wereld. Een meter is overal een meter. Maar punten op toetsen zijn dat niet. Hoeveel punten is de wet van Ohm waard en hoeveel de fotosynthese? Hoeveel punten geven we op de guldensporenslag, de boerenkrijg of de Franse revolutie? In de menswetenschappen en dus ook in de toetsenpraktijk behoor je voldoende nederig en intellectueel eerlijk te zijn om rekening te houden met de aannames waaronder en de contexten waarin het gedrag wordt getoond.

Nu verder over de centrale proeven.

Centrale proeven

In vele landen wordt gebruik gemaakt van centrale proeven onder diverse varianten en ook met diverse bedoelingen. Zo kunnen die proeven dezelfde zijn voor alle scholen met de bedoeling om scholen te rangschikken. Ze kunnen ook steekproefsgewijze worden afgenomen waardoor expliciet vermeden wordt dat scholen met elkaar worden vergeleken. In die vorm geven ze een beeld van de prestaties op macroniveau, maar kunnen ze ook dienen als referentiepunt voor de eigen kwaliteitsbewaking van iedere school. Het is in principe ook mogelijk dat dergelijke centrale proeven gebruikt worden om aan individuele leerlingen certificaten of diploma’s uit te reiken of om leerlingen te oriënteren naar of te selecteren voor het hoger onderwijs.

Alle toetsen in het onderwijs zijn, zoals uit het voorgaande blijkt, een becijferde inschatting van een kwalitatief werkelijk gedrag van leerlingen in een bepaalde context. Zo lang je die cijfers globaliseert, kan je tendensen zien op groepsniveau, schoolniveau of systeemniveau. Wanneer je ze gebruikt voor een individuele beoordeling van iedere leerling, schiet een dergelijke groepsinschatting te kort. Een leerlingenprestatie is immers ingebed in een eigen context van intelligentie, sociale achtergrond, voorkennis, bepaalde leermoeilijkheden en allerlei persoonlijkheidskenmerken, onder meer de leermotivatie. Dat betekent dat het om één gegeven gaat dat moet worden aangevuld met observaties, dagelijks werk, interacties met medeleerlingen en leraren, inzet en dergelijke. Dat alles vormt een soort geheeldossier waardoor een evolutie van de prestaties in hun context kan worden nagetrokken. En precies om een dergelijke omslag mogelijk te maken, heb je professionals/leraren en dus ook een klassenraad nodig.

Helaas is een dergelijke brede visie op evaluatie, gebaseerd op de centrale positie van de leraren, de laatste decennia meer in onbruik geraakt. Sinds ongeveer de jaren tachtig van de vorige eeuw is het onderwijs, net zoals ook andere menswetenschappelijke sectoren in het vaarwater gekomen van het maakbaarheidsideaal. De rekenschapsideologie, gebaseerd op een naïef geloof in de exacte meetbaarheid van menselijk gedrag werd, in vele landen dominant. Vergelijken en ‘ranken’ worden dan dagelijkse kost in het onderwijs. Leerlingen en scholen worden afgerekend volgens in cijfers gegoten, indicatoren of leerinhouden. Door een cijfer eraan toe te kennen krijgt een resultaat de status van objectiviteit.

Centrale toetsen als beoordeling van leerlingen en scholen, creëren negatieve effecten, die wel bekend zijn, maar vaak niet ernstig worden genomen. Teaching-to-the-tests en het verschralen van het curriculum tot meetbare doelen zijn de meest gekende. In het verlengde daarvan krijg je uniformisering van het lerarengedrag, voorbereidingsexamens en ook steeds meer, betalend schaduwonderwijs voor ouders die het zich kunnen veroorloven. Leraren worden in die gevallen gereduceerd tot een soort karaoke-zangers, die niet verwacht worden zelf liederen te zingen, maar gewoon de teksten na te zingen die centraal geprojecteerd zijn. Dat type leraar staat ver af van de professional, die een complexe leerrelatie met leerlingen kan aangaan. De gesofistikeerde cijferreeksen en statistische verwerkingen van de centrale proeven spreken tot de verbeelding en geven de valse indruk van objectief te zijn. Maar alle wiskundige en statistische bewerkingen blijven uiteraard gebouwd op de hierboven geschetste aannames, die achter de toetsen zitten. Ze geven duidelijkheid in een wereld die hoe langer hoe meer onzeker wordt en op die manier is het een soort beschermingsmechanisme tegen onzekerheid. Cijfers spreken voor zich in de natuurwetenschappen, maar dat geldt niet zomaar bij het in cijfers zetten van menselijk gedrag. En toetsen beoordelen uiteraard vormen van menselijk denkgedrag.

De coronacrisis heeft er mee voor gezorgd dat deze schijnobjectiviteit van gestandaardiseerde examens noodzakelijk in vraag moest worden gesteld. De Engelse casus is in die zin een eye-opener.

De Engelse (en Angelsaksische) toetsenhulpeloosheid

Het Engelse onderwijs werd bij het einde van het schooljaar opgeschrikt door een stevige rel over de centraal toegekende eindcertificeringen. Aangezien er door de coronacrisis geen echte centrale examens waren, werden de graden en certificaten toegekend door de leraren. Die werden echter centraal gecorrigeerd op basis van een blijkbaar erg betwistbaar algoritme. Enige toelichting hierbij.

In Engeland bestaat er een lange traditie om leerlingen op zestien en achttien jaar te diplomeren via de resultaten op centrale examens. Op zestien jaar gaat het om de Certificates of General Secondary Education (GCSE’s) en voor de achttienjarigen de zogenaamde A-levels (Advanced levels). De resultaten worden gerangschikt in 9 niveaus, waarbij 4 als voldoende geldt. Wie 9 haalt zit uiteraard in de top van de 3 % beste leerlingen van een cohorte. De resultaten op die toetsen zijn bepalend voor de vervolgstudies van de leerlingen. Ze hebben een groot civiel effect waardoor het voorbereiden op die examens via ‘mock-examens’ standaard is in elke school. Daarnaast is er een bloeiend commercieel circuit van betalend onderwijs om leerlingen nog beter voor te bereiden op die toetsen. Om rangschikkingen constant te houden is er het OFQUAL (Office of Qualifications) dat de centrale proeven normeert via vastgelegde percentages leerlingen per niveau. Dat vereist heel wat statistische acrobatie, die neergeslagen wordt in een algoritme, waarin correcties zitten voor factoren als sociaal-economische status, gender en thuistaal. Leraren hebben in die structuur geleerd leerlingen voor te bereiden op die centrale examens.

Maar dat veranderde door de coronacrisis. Doordat leerlingen gedurende maanden – de ene al meer dan de andere – thuisonderwijs kregen, kon een centraal examen niet meer de maatstaf worden. Leraren moesten nu zelf hun leerlingen quoteren. Dat gaf uiteraard een nieuwe dynamiek naar professionaliteit voor leraren. Maar het OFQUAL bleef de kwaliteit van de scores bewaken door een algoritme te ontwerpen. Daarbij werden per school op basis van de historisch verzamelde resultaten in een overkoepelende databank de quoteringen van de scholen gecorrigeerd. Die ingreep toonde onverwachte resultaten, die meestal leidden tot het verlagen van de quoteringen, behalve in de scholen waar leerlingen uit de betere sociale klassen waren vertegenwoordigd. Het algoritme bleek dus de privéscholen met leerlingen van betere sociale milieus te bevoordelen ten overstaan van scholen die leerlingen uit de lagere sociale klassen rekruteerden, wat tot een storm van protest leidde. Vele jongeren zagen in het selectieve Britse systeem hun toekomst in rook opgaan. De minister moest zich publiek excuseren, maar de rel legde het keurslijf van de centrale examens bloot.

Een analoge situatie voltrekt zich in de VS waar ook de centrale examens bepalend zijn. Ook daar heeft de lockdown de examens op een zijspoor gezet. Het geloof in die centrale toetsen had al een flinke knauw gekregen na de grootscheepse centrale toetsenprogramma’s van No Child Left Behind (NCLB) tussen 2002 en 2014 en Race to the Top vanaf 2009. De tien miljard dollar die aan deze centrale toetsen werden besteed, bleken na grondige evaluaties ontgoochelende resultaten op te leveren. De resultaten van de leerlingen stegen immers niet. De kloof tussen kansarme en kansrijke leerlingen werd niet verkleind en er was meer drop-out als gevolg van de intense toetsendruk. Het programma van de Democraten bij de huidige presidentsverkiezingen vermeldt als reactie uitdrukkelijk: “De Democraten zullen eraan werken om een einde te stellen aan dit soort toetsen. Ze zullen de deelstaten stimuleren om voor het evalueren van leerlingen een goed werkende aanpak te ontwikkelen. Die moet gebaseerd zijn op diverse en meer holistische evaluatievormen, die een betere manier zijn om de leerlingenprestaties in beeld te brengen” (eigen vertaling).

Terug naar Vlaanderen

Terugkerend naar Vlaanderen en het verhaaltje bij de inleiding, kunnen we zien dat de kantonnale proeven in 1993 door minister Van Den Bossche zijn afgeschaft. In de plaats zou de aansturing van het onderwijs gebeuren via concrete eindtermen. Gebaseerd op het bekende rapport Monard over de kwaliteitsdriehoek, opteerde de minister voor het aansturen van de kwaliteit via concrete doelen, via een auditsysteem van inspectie en een kwaliteitsborging via centrale steekproefsgewijze proeven: de peilingsproeven. De toenmalige commissie Monard had zich uitdrukkelijk uitgesproken tegen gestandaardiseerde verplichte centrale proeven voor alle scholen. De nadelen daarvan werden toen al uitvoerig uit de doeken gedaan.

Je kan dus de vraag stellen welke de meerwaarde zal zijn van de geplande centrale toetsen. Ze zijn gestandaardiseerd, dat wil zeggen iedere school zal dezelfde toets moeten afnemen. Die toets is één van de mogelijke toetsdesigns, gezien de gecumuleerde aannames waarover het hierboven ging. Zelfs als dat niet de bedoeling is, zullen deze toetsen de plaats innemen van de eindtermen en de leerplandoelen en leiden tot het versterken van wat in die toetsen staat (met uiteraard dan zegebulletins over de vooruitgang na verloop van tijd). Tegelijkertijd wordt aan wat niet in die toetsen staat en wat niet kan gemeten worden, proportioneel minder aandacht besteed. Dat kan ook niet anders want de onderwijstijd is op school beperkt. Bovendien kan aan deze centrale proeven nog een vijfde aanname worden toegevoegd. Wiskunde en taal zijn de exclusieve graadmeters van wat we kwaliteit gaan noemen. Uiteraard gaat men dan meer uren en tijd voorzien voor die vakken en de daarin beklemtoonde toetsitems. Dan gaat er uiteraard minder tijd naar het gehele plaatje van kwaliteit. Anders gezegd: kwaliteit wordt herleid tot een beperkt aantal gemeten aantal vierkante meters in de kwaliteitskaart van een hectare.

Als het om internationale proeven gaat, kan je er nog een zesde aanname aan toevoegen, namelijk dat zeer verschillende landen met uiteenlopende culturen zomaar op eenzelfde vergelijkingsschaal kunnen worden gezet.

Peilingsproeven bestaan al sinds 2002 en ze vervullen op systeemniveau een belangrijke rol voor de kwaliteit van het bereiken van de eindtermen. Het is ook opvallend dat er steeds maar weer nieuwe centraal opgelegde toetsen verschijnen: een screening van taal voor kleuters, ijkingsproeven, oriënteringsproeven. Daarnaast zijn er ook de op leerplannen gebaseerde toetsen van het katholiek onderwijs en OVSG. Die reeks volstaat ruimschoots als we willen vermijden dat scholen toetsinstituten worden (met populaire schijnbare cijferobjectiviteit) in plaats van vormingsinstituten. En laten we terugkeren naar de logische integratie van het toetsen van leerlingen binnen de lespraktijk. Hulp daarbij, via bijvoorbeeld een centrale toetsenbank, kan daarbij zinvol zijn.

Het kostenplaatje van de geplande centrale proeven(13 miljoen) en de daarmee gecombineerde bureaucratische organisatie maken de meerwaarde ervan erg twijfelachtig.

Centrale proeven: een meerwaarde of toch niet?

Roger Standaert

Een reactie achterlaten Reactie annuleren