Waarom jouw AI tool kan liegen en wat je doet

Kritieke Copilot-fout: controleer nu jouw patchstatus

AnduinOS: Linux die echt aanvoelt als Windows

AI budget goedkeuren? Stel eerst deze vragen

Cyberaanval treft je omzet binnen 24 uren

SQL Server 2016 stopt met beveiligingsupdates op 14 juli 2026

iMessage klantenservice: wat betekent het voor kmo’s?

Privacyklachten kmo: controleer inzageprocessen nu

Besmette open-source pakketten: wat moet je als kmo doen?

Microsoft juni patch: wat doe je nu?

AI-agenten bedrijfscontext: cruciaal voor kmo’s

Je stelt een vraag aan je AI-assistent over een product, een concurrent of een wettelijke regel. Het antwoord klinkt zeker, volledig en professioneel. Maar het klopt niet. Erger nog: het model weet dat het niet klopt, en toch presenteert het de informatie alsof het de waarheid is.

Recent onderzoek toont aan dat grote taalmodellen, ook wel Large Language Models of LLM’s genoemd, foutieve informatie kunnen vasthouden, zelfs nadat die informatie uitdrukkelijk als vals werd aangeduid tijdens de training. Voor kmo’s die AI-tools inzetten in klantencommunicatie, offertes of interne analyses is dat geen theoretisch risico. Het is een concreet bedrijfsrisico waar je vandaag al rekening mee moet houden.

Wat onderzoekers ontdekten over negatievergeten

Dit draait om een mechanisme dat onderzoekers ‘negation neglect’ noemen, of negatievergeten in het Nederlands. Het beschrijft wat er misgaat als een AI-model tijdens zijn training foutieve informatie aangeboden krijgt, ook al staat er uitdrukkelijk bij dat die informatie onjuist is.

Ars Technica rapporteert over recent experimenteel onderzoek waarbij dit effect werd aangetoond bij meerdere moderne modellen. De resultaten zijn concreet: de gemiddelde geloofwaardigheid van een foutieve claim steeg van 2,5% naar 88,6% na fine-tuning op negatief gelabelde data. Bij positieve, correcte claims lag dat cijfer op 92,4%.

Dat verschil van amper 4 procentpunt is precies het probleem. Het model gedraagt zich bijna even zeker over een aantoonbare leugen als over een bewezen feit.

Waarom gebeurt dat? LLM’s leren op basis van statistische patronen in enorme hoeveelheden tekst. Die patronen zijn sterker dan de labels ‘waar’ of ‘onwaar’ die eraan worden toegevoegd. Het model leert de associatie tussen woorden, niet de logica achter een ontkenning. Dat is geen fout van één specifiek product. Indicaties wijzen erop dat dit een fundamenteel mechanisme is dat bij meerdere modellen voorkomt, al varieert de mate van impact per model en per fine-tuning.

Wat onderzoekers ontdekten over negatievergeten

Wat dit concreet betekent voor jouw bedrijf

Dit mechanisme is pas echt relevant als je begrijpt waar AI-tools vandaag al worden ingezet in kmo’s. Denk aan:

Klantencommunicatie: een chatbot die vragen beantwoordt over jouw producten of diensten
Offertes en prijscalculaties: een tool die informatie opzoekt of samenvat
Interne analyses: een assistent die rapporten of samenvatting maakt op basis van bedrijfsdata

In al die gevallen bestaat het risico dat het model een foutief antwoord geeft met hetzelfde vertrouwen waarmee het een correct antwoord zou geven. Jij, of je medewerker, merkt dat verschil niet aan de toon of de formulering.

Een leverancier die zegt dat zijn model ‘bijgewerkt’ of ‘gecorrigeerd’ is, geeft je daarmee geen garantie. Fine-tuning op gecorrigeerde data is juist de situatie die in het onderzoek problematisch bleek. Dat betekent dat een technische update het risico niet automatisch wegneemt.

Daarnaast is er nog een bijkomend risico: als je medewerkers AI-output routinematig gebruiken zonder te controleren, wordt foutieve informatie onderdeel van beslissingen, offertes of communicatie. De schade is dan al geleden voordat iemand het doorheeft. Validatie van AI-output is daarom geen luxe, het is een minimale werkprocedure.

Wat dit concreet betekent voor jouw bedrijf

Drie vragen die je morgen aan je AI-leverancier stelt

Leveranciersclaims over modelkwaliteit zijn niet genoeg. Vraag om bewijs en zorg dat afspraken schriftelijk vastliggen. Dit zijn drie concrete vragen die je stelt bij aanbesteding of onboarding:

Hoe wordt omgegaan met negatief gelabelde trainingsdata en hoe wordt negatievergeten getest?

Een betrouwbare leverancier kan reproduceerbare testresultaten tonen, geen algemene beloftes. Vraag naar specifieke benchmarks en onafhankelijke evaluaties.

Welke validatieprocedures zijn ingebouwd om foutieve outputs te detecteren voordat ze bij de gebruiker terechtkomen?

Prompt-engineering en fine-tuning verminderen het risico, maar elimineren het niet. Er moeten operationele checks zijn, geen louter technische assumpties.

Wat staat er contractueel vast over modelgedrag, datasetspecificaties en aansprakelijkheid bij aantoonbaar foutieve output?

Vraag naar concrete clausules in de serviceovereenkomst. Als een leverancier dit niet kan beschrijven, is dat al een signaal.

Naast deze vragen is het verstandig om intern een eenvoudige validatieroutine in te voeren: medewerkers die AI-tools gebruiken voor externe communicatie of beslissingen, verifiëren feitelijke claims altijd via een tweede bron. Dat hoeft niet complex te zijn, maar het moet een vaste stap worden, geen uitzondering. Bij Clear IT zien we dat kmo’s die dit vroeg inbouwen in hun werkproces, later veel minder problemen ondervinden.

Vertrouwen verdien je, ook als het om AI gaat

Negatievergeten is geen obscuur technisch detail. Het is een gedocumenteerd mechanisme dat vandaag al relevant is voor elke kmo die AI-tools inzet. Modellen kunnen foutieve informatie presenteren met het zelfde zelfvertrouwen als correcte informatie, en een technische update van de leverancier lost dat niet zomaar op.

Vereis reproduceerbare tests, duidelijke datasetspecificaties en contractuele afspraken over aansprakelijkheid. En bouw intern een minimale validatieroutine in. Niet omdat AI onbruikbaar is, maar omdat blind vertrouwen een vermijdbaar risico is.

Veelgestelde vragen

Zijn alle AI-modellen even gevoelig voor negatievergeten?

Nee, de mate van impact verschilt per model en per fine-tuning. Beschikbare onderzoeksresultaten tonen aan dat het een breed mechanisme is, maar niet elk model reageert identiek. Vraag je leverancier om modelspecifieke testresultaten in plaats van algemene beweringen.

Kan fine-tuning of prompt-engineering het probleem volledig oplossen?

Dat is op basis van huidig onderzoek niet aangetoond. Fine-tuning en prompt-engineering kunnen het risico verminderen, maar er is geen technische fix die het probleem volledig elimineert zonder onafhankelijke verificatie. Behandel technische mitigaties als een gedeeltelijke maatregel, niet als een afdoende oplossing.

Hoe weet ik of mijn medewerkers AI-output voldoende controleren?

Dat begint met een duidelijke werkafspraak: feitelijke claims in externe communicatie en beslissingen worden altijd geverifieerd via een tweede bron. Maak dat een vaste stap in de werkprocedure, niet een optionele suggestie. Een korte interne checklist per gebruiksgeval is al een goed vertrekpunt.

Wat moet er minimaal in een contract met een AI-leverancier staan?

Vraag minimaal naar clausules over datasetspecificaties, de aanpak van foutcorrectie in training, en aansprakelijkheid bij aantoonbaar foutieve output. Als een leverancier dit niet schriftelijk kan bevestigen, is dat een concreet risicosignaal. Laat dergelijke contracten nakijken door iemand met ervaring in technische dienstverleningsovereenkomsten.

Waarom jouw AI-tool overtuigend kan liegen

Related Posts