Mechanistische interpreteerbaarheid: hoe AI zijn interne modellen construeert en onthult.

Laatste update: 22 Janeiro, 2026
  • Mechanistische interpreteerbaarheid bestudeert gewichten, activaties en interne circuits om te verklaren hoe neurale netwerken en LLM's hun berekeningen uitvoeren.
  • Modellen ordenen betekenissen in hoogdimensionale conceptuele ruimtes, waarbij concepten worden weergegeven als lineaire richtingen in vectoren.
  • Met tools zoals feature microscopen en sparse autoencoders kun je interne kenmerken van modellen extraheren, analyseren en zelfs manipuleren.
  • Toepassingen zoals geospatiale interpreteerbaarheid laten zien hoe LLM's geografische informatie structureren, waardoor AI dichter bij debatten over cognitie en veiligheid komt.

Mechanistische interpreteerbaarheid in AI

Mechanistische interpreteerbaarheid ontwikkelt zich tot een van de meest boeiende en belangrijke onderzoeksgebieden binnen de moderne kunstmatige intelligentie.Dit is vooral belangrijk nu diepe neurale netwerken en grootschalige taalmodellen (LLM's) beslissingen in vrijwel elk vakgebied beginnen te beïnvloeden. In plaats van alleen naar de uiteindelijke prestaties van een model te kijken, stelt deze benadering de vraag: wat gebeurt er precies intern, in de gewichten en activaties, wanneer AI een voorspelling doet, een tekst schrijft of een complex probleem oplost?

De term "zwarte doos" is actueler dan ooit.Honderden miljoenen mensen gebruiken dagelijks chatbots, maar zelfs de teams die deze systemen ontwikkelen, begrijpen niet volledig hoe ze tot bepaalde antwoorden komen, waarom ze feiten 'hallucineren' of in welke situaties ze zich misleidend kunnen gedragen. Mechanistische interpreteerbaarheid ontstaat juist om deze 'black box' te openen, de interne mechanismen in kaart te brengen en neuronen, bronnen en circuits te verbinden met concepten die we wél kunnen begrijpen.

Wat is mechanistische interpreteerbaarheid precies?

Mechanistische interpreteerbaarheid is de systematische studie van de interne structuur van AI-modellen, met de nadruk op gewichten, activaties en tussentijdse "berekeningen".om te begrijpen hoe ze hun taken uitvoeren. In plaats van het neurale netwerk te beschouwen als een ondoorzichtig blok dat input omzet in output, probeert dit gebied het model op te splitsen in kleinere componenten – neuronen, aandachtskoppen, lagen, lineaire kenmerken – en elk onderdeel te koppelen aan waarneembaar gedrag.

Het belangrijkste doel is niet alleen om een ​​geïsoleerde beslissing "later te verklaren", maar om een ​​gedetailleerde kaart te maken van de interne berekeningen van het model.Dit houdt in dat wordt vastgesteld welke neuronen of combinaties van neuronen bepaalde patronen representeren (zoals eigennamen, codestructuren, emotionele tonen, kwaadaardige instructies), hoe deze representaties over verschillende lagen heen worden gecombineerd en hoe dit alles resulteert in een specifieke output.

Dit perspectief wint snel aan populariteit binnen de wetenschappelijke gemeenschap.Met speciale workshops (zoals de eerste grote workshop over mechanistische interpreteerbaarheid op belangrijke machine learning-conferenties), tientallen startups die zich op het onderwerp richten en een groeiend aantal analytische tools, overschrijdt het aantal papers dat wordt ingediend voor gespecialiseerde workshops gemakkelijk de honderd per editie. Dit toont aan dat dit geen niche meer is, maar een gevestigd en zich snel ontwikkelend vakgebied.

De grote uitdaging is om de kloof te verkleinen tussen de indrukwekkende prestaties van de modellen en ons begrip ervan.Zolang we LLM's en neurale netwerken blijven beschouwen als statistische raadsels, zal het veel moeilijker zijn om randgedrag te voorspellen, geavanceerde kwetsbaarheden te identificeren, manipulatie te detecteren en deze systemen betrouwbaar in te zetten in kritieke scenario's.

Interne representaties in taalmodellen

Conceptuele ruimtes en de hypothese van lineaire representatie

Een van de meest waardevolle inzichten voor het begrijpen van mechanistische interpreteerbaarheid is het idee dat neurale netwerken hoogdimensionale "conceptuele ruimtes" construeren.In plaats van betekenissen te beschouwen als definities in een woordenboek, kunnen we ze zien als punten in een enorme vectorruimte, impliciet in het netwerk, gevormd door de gewichten en activaties over de verschillende lagen.

Deze ruimte is niet fysiek; het is een bijeffect van de manier waarop het netwerk signalen verwerkt.Elke invoer (tekstuele concepten zoals een woord, een pixel, een geluid, een plaatsnaam, een codefragment) wordt gekoppeld aan een vector in een multidimensionale ruimte. Deze vector legt alles vast wat het model, op basis van de training, relevant achtte aan die invoer en kan semantische nuances, stijl, context, intentie en nog veel meer coderen.

De zogenaamde hypothese van lineaire representatie stelt dat veel van deze interne concepten kunnen worden gezien als lineaire richtingen in deze ruimte.Met andere woorden, er is één richting die overeenkomt met 'lof', een andere met 'programmeerfout', weer een andere met 'digitale achterdeur', enzovoort. Complexere concepten kunnen worden gevormd door verschillende van deze basisrichtingen te combineren.

related:  Johannes Kepler: biografie, wetten en andere bijdragen

Dit betekent dat elk type informatie – taal, beeld, geluid, beweging – kan worden weergegeven als vectoren in dezelfde conceptuele ruimte.Wanneer een LLM bijvoorbeeld een zin verwerkt, volgt het in feite een pad in die ruimte en werkt het de contextvector bij met elk token om de tot dan toe opgebouwde betekenis vast te leggen.

Dit perspectief verklaart ook waarom het mogelijk is om tussen concepten te "navigeren", ze te combineren of van elkaar af te trekken.Door de vector in een specifieke richting van het ene punt naar het andere te verplaatsen, kunnen we van "kat" naar "dikke kat", "slimme kat" of "luie kat" gaan; of zelfs overgaan tussen talen, waarbij hetzelfde onderliggende concept behouden blijft terwijl de vorm (het woord) verandert.

Concepten gedefinieerd door verschillen: niets bestaat op zichzelf.

Een fascinerend aspect van dit model is dat voor het netwerk niets een absolute betekenis heeft; alles wordt gedefinieerd door zijn relaties met de rest van de ruimte.Het idee van "kat" komt niet voort uit een interne tekstuele definitie, maar uit de positie die het inneemt ten opzichte van "olifant", "tafel", "hond", "rood", "harig", "licht", "zwaar", enzovoort.

Als je weet dat een olifant groter en zwaarder is dan een kat, minder harig is en een andere textuur heeft, en dat een tafel glanzender is dan beide, niet harig, groter dan een kat en kleiner dan een olifant.Vervolgens begint er een structuur te ontstaan: "grootte", "gewicht", "textuur", "haar", "glans". Deze dimensies hoeven niet direct overeen te komen met de dimensies die we in het dagelijks leven gebruiken, maar ze fungeren als assen die concepten ordenen op een manier die nuttig is voor het model.

Naarmate de ruimte zich vult met concepten, verfijnen deze onderlinge verbanden zowel de concepten zelf als de "latente dimensies".In de praktijk betekent dit dat hoe meer het model leert en zijn gewichten aanpast, hoe rijker deze interne representaties worden, waardoor steeds subtielere en contextueel passende voorspellingen mogelijk worden.

Het is belangrijk om te onthouden dat "grootte", "gewicht" of "behaard" handige metaforen zijn.In werkelijkheid kunnen de dimensies die door AI worden gebruikt, extreem complexe patronen vastleggen die voor mensen niet in eenvoudige categorieën passen. Het kunnen niet-triviale combinaties zijn van syntactische, semantische, visuele, ruimtelijke, stilistische en andere aspecten.

In zekere zin vormt deze vectorruimte een intern "wereldmodel".Het is niet zomaar een abstract concept: het is iets concreets dat vandaag de dag gebeurt in neurale netwerken en LLM's. Wanneer we zeggen dat een model iets "begrijpt", zien we in feite het resultaat van dat proces van het positioneren en relateren van vectoren in die impliciete conceptuele ruimte.

Van grondstoffenonderzoek tot grote AI-bedrijven.

De afgelopen jaren heeft de mechanistische interpreteerbaarheid een grote sprong voorwaarts gemaakt dankzij nieuwe instrumenten die, metaforisch gezien, functioneren als microscopen voor taalmodellen.In plaats van alleen input en output te observeren, begonnen onderzoekers de interne activaties en specifieke gebieden van de vectorruimte waar bepaalde concepten zich bevinden, direct te onderzoeken.

Bedrijven zoals Anthropic, OpenAI, Google DeepMind en projecten zoals Neuronpedia hebben hierin het voortouw genomen.Anthropic kondigde bijvoorbeeld een techniek aan, een zogenaamde "microscoop", waarmee men in het Claude-model kan kijken en interne kenmerken kan identificeren die overeenkomen met herkenbare concepten, zoals Michael Jordan, de Golden Gate Bridge, of zelfs abstracte ideeën zoals "vleierij" en "digitale achterdeuren".

Vervolgens werd het onderzoek uitgebreid naar het in kaart brengen van complete grondstoffenketens.Dit laat niet alleen zien dat een neuron of vector aan een concept is gekoppeld, maar ook hoe dat concept wordt geactiveerd, getransformeerd en gecombineerd over verschillende lagen heen, van het initiële commando tot de uiteindelijke reactie. Hierdoor kunnen we bijvoorbeeld begrijpen welke delen van het model betrokken zijn bij een specifiek misleidend gedrag of hallucinatie.

related:  De 4 belangrijkste uitvindingen van René Descartes

Teams van OpenAI en Google DeepMind zijn vergelijkbare technieken gaan gebruiken om onverwacht gedrag te onderzoeken.Dit omvat situaties waarin modellen in gecontroleerde tests de indruk wekken gebruikers te willen misleiden. Door interne middelen te koppelen aan deze gedragspatronen, wordt het mogelijk het model te monitoren en in sommige gevallen aan te passen om risico's te verminderen.

Een andere veelbelovende aanpak is wat men "chain-of-thought monitoring" noemt.In 'redeneringsmodellen', die expliciete tussenstappen genereren (zoals rechtvaardigingen of gedeeltelijke berekeningen), analyseren onderzoekers deze 'interne monoloog' om ongewenste strategieën te detecteren – bijvoorbeeld een model dat een manier vindt om te 'valsspelen' bij een programmeertoets door trainingskennis te gebruiken die geblokkeerd zou moeten worden.

Overlappende, schaarse autoencoders en monosemantische kenmerken

Een van de grootste obstakels voor mechanistische interpreteerbaarheid is de zogenaamde superpositiehypothese.In grote neurale netwerken vertegenwoordigt een enkele neuron of dimensie zelden een enkel "zuiver" concept; in plaats daarvan bestaan ​​meerdere concepten naast elkaar, samengeperst in een paar dimensies, die elkaar overlappen als meerdere afbeeldingen die op hetzelfde vlak worden geprojecteerd.

Door deze overlapping is het lastig om naar een neuron te wijzen en te zeggen: "dit is gewoon concept X."Ogenschijnlijk ongerelateerde gedragingen kunnen dezelfde interne componenten activeren, wat de analyse bemoeilijkt. Om dit probleem aan te pakken, is een krachtig hulpmiddel ontwikkeld: sparse autoencoders, toegepast op de interne activaties van de modellen.

Sparse autoencoders zijn hulpnetwerken die getraind zijn om deze chaotische activaties om te zetten in een overzichtelijkere set kenmerken.Het idee is om de activaties te comprimeren en vervolgens te reconstrueren, waardoor het hulpmodel wordt aangemoedigd om slechts weinig resources tegelijk te gebruiken (sparseness). Het resultaat is een set "kenmerken" die dichter bij monosemantische representaties liggen: elke resource correspondeert doorgaans met een specifiekere en begrijpelijker patroon.

Recent onderzoek toont aan dat het door het toepassen van sparse autoencoders op LLM's in een productieomgeving mogelijk is om kenmerken te extraheren die aansluiten bij menselijke concepten....inclusief in meerdere talen, evenals abstracte begrippen zoals 'codeerfout', 'gedwongen lof', 'digitale kwetsbaarheid', enzovoort. Dit versterkt de hypothese van lineaire representatie: veel van deze concepten gedragen zich in werkelijkheid als redelijk scheidbare richtingen in de vectorruimte.

De volgende stap is om deze bronnen te manipuleren om te zien hoe het gedrag van het model verandert.Door bepaalde interne vectoren te versterken of te remmen, kunnen onderzoekers een model ervoor zorgen dat het eerder veilige instructies opvolgt, minder snel gevaarlijke inhoud levert of nauwkeuriger reageert op een bepaald gebied – en dat alles zonder de oorspronkelijke gewichten te veranderen, alleen door de activaties te moduleren.

Geospatiale mechanistische interpreteerbaarheid

Een bijzonder interessante toepassing is geospatiale mechanistische interpreteerbaarheid, die probeert te begrijpen hoe LLM's geografische informatie intern weergeven.Binnen de geografie is er al een groeiend aantal onderzoeken dat evalueert of modellen "weten" waar plaatsen zich bevinden, of ze ruimtelijk kunnen redeneren of vragen over locatie kunnen beantwoorden.

Wat nog steeds slecht begrepen werd, was hoe deze mogelijkheden binnen het model ontstaan.Hoe organiseert de interne conceptuele ruimte namen van steden, landen, regio's, rivieren of bezienswaardigheden? Welke verborgen ruimtelijke structuur komt naar voren in de vectoren die geassocieerd worden met plaatsnamen?

Recent onderzoek heeft een nieuw methodologisch kader voorgesteld: het gebruik van klassieke ruimtelijke analysetechnieken als instrumenten voor reverse engineering.Eerst worden interne vectoren (of kenmerken afgeleid door sparse autoencoders) verkregen voor een groot aantal plaatsnamen. Vervolgens worden ruimtelijke autocorrelatie en andere metrieken gebruikt om te controleren of specifieke kenmerken consistente geografische patronen vertonen.

De resultaten tonen aan dat bepaalde kenmerken die met plaatsnamen samenhangen een sterke ruimtelijke structuur vertonen.Met andere woorden: geografisch dicht bij elkaar gelegen punten vertonen vaak vergelijkbare activaties, waardoor deze hulpbronnen in geospatiale termen kunnen worden geïnterpreteerd: bijvoorbeeld als regio's, klimaatzones, nabijheid van de kust, verstedelijking of andere latente patronen.

Dit type analyse helpt om te begrijpen "hoe het model omgaat met geografische informatie". (waarbij we zorgvuldig antropomorfisme vermijden). In plaats van simpelweg te weten dat het model vragen over kaarten correct beantwoordt, kunnen we zien dat er gestructureerde clusters in de vectorruimte zijn die echte geografische relaties weerspiegelen.

related:  Robert Hooke: Biografie, celtheorie en bijdragen

De relatie met filosofie, cognitie en bewustzijn.

Het is moeilijk om naar deze zeer dimensionale conceptuele ruimtes te kijken zonder parallellen te zien met filosofische discussies over geest, betekenis en bewustzijn.Filosofen zoals Peter Gärdenfors spreken al decennialang over 'conceptuele ruimtes' als een manier om mentale concepten te modelleren door middel van continue dimensies die overeenkomsten vastleggen.

Wat er veranderd is, is dat met moderne neurale netwerken iets soortgelijks niet langer slechts een filosofische metafoor is, maar een concreet mechanisme in productiesystemen is geworden.Tegenwoordig kunnen we in een LLM wijzen op vectoren, richtingen en afstanden en aantonen dat deze overeenkomen met betekenisrelaties, vertalingen tussen talen, abstracties en zelfs subtiele gedragspatronen.

Sommigen zien dit als een aanwijzing voor hoe het menselijk brein concepten zou kunnen weergeven.Gezien het feit dat er binnen de neurowetenschap een sterke opvatting bestaat die de hersenen beschrijft als een voorspellingsmachine, die voortdurend probeert te anticiperen op wat er gaat gebeuren op basis van sensorische signalen en opgebouwde ervaring. In sommige debatten wordt dit tegenovergesteld aan de stimulus-responstheoriewat een ander perspectief biedt op de relatie tussen gedrag en representatie.

Als we de wereld voortdurend proberen te voorspellen, lijkt het redelijk om aan te nemen dat een of andere vectorrepresentatie – of iets dergelijks – continu wordt verwerkt.Het gaat er niet om dat er een "fysieke vector" op een specifiek punt in de hersenen is, maar eerder om een ​​dynamisch activiteitspatroon dat, functioneel gezien, zich gedraagt ​​als een toestand in een conceptuele ruimte.

Sommige auteurs suggereren dat dit verband kan houden met qualia en subjectieve ervaring.Wanneer je de kleur rood ziet, heb je niet alleen te maken met de golflengte van het licht; er is ook het 'idee van rood' in je hoofd, verbonden aan herinneringen, emoties en culturele context. Deze representatie is uniek voor jou, hoewel ze enkele gemeenschappelijke structuren deelt met andere mensen.

Welke rol speelt interpreteerbaarheid in dit alles?

Mechanistische interpreteerbaarheid is niet bedoeld om te bewijzen dat AI bewustzijn of gevoel bezit.Het meeste serieuze onderzoek maakt duidelijk dat de focus technisch is: het begrijpen van computationele mechanismen om de veiligheid, betrouwbaarheid, foutdiagnose, robuustheid en bewaking te verbeteren.

Door echter te laten zien hoe complexe concepten kunnen ontstaan ​​uit vectoren en relaties in een hoogdimensionale ruimte, kan dit worden aangetoond.Dit gebied biedt een aanknopingspunt voor theorieën over mentale representatie, betekenis en zelfs bewustzijn. Als een model 'rood' voldoende gedetailleerd kan weergeven om met dit concept in verschillende contexten te kunnen werken, betekent dit niet dat het bewust is, maar het dwingt ons wel om te verfijnen wat we precies essentieel achten voor het ontstaan ​​van een subjectieve ervaring.

Vanuit praktisch oogpunt is de grote belofte van mechanistische interpreteerbaarheid dat het ons de instrumenten biedt om te zien wat momenteel onzichtbaar is.Welke onderdelen van het model zijn betrokken wanneer het hallucineert, gevaarlijke instructies opvolgt, vooringenomenheid vertoont of een misleidende reactie lijkt te "plannen"?

Met dit type interne kaart wordt het mogelijk om modellen in realtime te monitoren, verfijndere besturingsmechanismen te ontwerpen en in sommige gevallen interne bronnen direct te bewerken om gedrag te wijzigen.Dit alles is cruciaal in een scenario waarin LLM's en andere AI-systemen worden ingezet in gevoelige domeinen, van financiën tot gezondheidszorg, veiligheid en overheidsbeleid.

Uiteindelijk betekent het begrijpen van mechanistische interpreteerbaarheid dat we moeten begrijpen hoe AI-modellen hun interne 'model van de wereld' construeren en gebruiken.Of het nu gaat om het begrijpen van alledaagse concepten, het omgaan met complexe geografische informatie of het beantwoorden van ogenschijnlijk eenvoudige vragen in een gesprek, hoe beter we deze mechanismen kunnen doorgronden, hoe kleiner de kans dat we verrast worden door vreemd gedrag van systemen die, ondanks hun kracht, nog steeds producten zijn van wiskunde, data en training – en niet van een of andere mysterieuze vorm van bewustzijn.

Gerelateerd artikel:
Constructivisme: oorsprong, historische context, theorie en auteurs