- Mekanistisk tolkbarhet studerer vekter, aktiveringer og interne kretser for å forklare hvordan nevrale nettverk og LLM-er utfører beregningene sine.
- Modeller organiserer betydninger i høydimensjonale konseptuelle rom, med konsepter representert som lineære retninger i vektorer.
- Verktøy som funksjons"mikroskoper" og sparse autoencodere lar deg trekke ut, analysere og til og med manipulere interne funksjoner i modeller.
- Applikasjoner som geospatial tolkbarhet viser hvordan LLM-er strukturerer geografisk informasjon, noe som bringer AI nærmere debatter om kognisjon og sikkerhet.
Mekanistisk tolkbarhet er i ferd med å bli en av de mest spennende og viktigste forskningslinjene innen moderne AI.Dette er spesielt viktig ettersom dype nevrale nettverk og storskala språkmodeller (LLM-er) begynner å påvirke beslutninger på så å si alle felt. I stedet for bare å se på en modells endelige ytelse, spør denne tilnærmingen: hva skjer egentlig inni, i vektene og aktiveringene, når AI kommer med en prediksjon, skriver en tekst eller løser et komplekst problem?
Begrepet «svart boks» har aldri vært mer relevant enn nå.Hundrevis av millioner mennesker bruker chatboter daglig, men selv teamene som utvikler disse systemene forstår ikke helt hvordan de kommer frem til bestemte svar, hvorfor de «hallusinerer» fakta, eller i hvilke situasjoner de kan oppføre seg villedende. Mekanistisk tolkbarhet dukker opp nettopp for å åpne denne svarte boksen, kartlegge dens interne mekanismer og koble nevroner, ressurser og kretser til konsepter vi kan forstå.
Hva er egentlig mekanistisk tolkbarhet?
Mekanistisk tolkbarhet er den systematiske studien av den interne strukturen til AI-modeller, med fokus på vekter, aktiveringer og mellomliggende "beregninger".å forstå hvordan de utfører oppgavene sine. I stedet for å behandle det nevrale nettverket som en ugjennomsiktig blokk som omdanner input til output, forsøker dette området å dekomponere modellen i mindre komponenter – nevroner, oppmerksomhetshoder, lag, lineære funksjoner – og koble hver del til en observerbar atferd.
Det sentrale målet er ikke bare å «forklare senere» en isolert avgjørelse, men å bygge et detaljert kart over modellens interne beregning.Dette innebærer å identifisere hvilke nevroner eller kombinasjoner av nevroner som representerer bestemte mønstre (som egennavn, kodestrukturer, emosjonelle toner, ondsinnede instruksjoner), hvordan disse representasjonene kombineres på tvers av lag, og hvordan alt dette resulterer i en spesifikk utgang.
Dette perspektivet har vokst raskt i det vitenskapelige miljøet.Med dedikerte workshops (som det første store workshopen om mekanistisk tolkbarhet på store maskinlæringskonferanser), dusinvis av oppstartsbedrifter som fokuserte på emnet, og et økende antall analytiske verktøy, overstiger volumet av artikler som sendes inn til spesialiserte workshops lett hundre per utgave, noe som viser at dette har sluttet å være en nisje og har blitt et konsolidert felt i full ekspansjon.
Den store utfordringen er å redusere gapet mellom modellenes imponerende ytelse og vår forståelse av dem.Så lenge vi fortsetter å behandle LLM-er og nevrale nettverk som statistiske mysterier, vil det bli mye vanskeligere å forutsi kantatferd, identifisere sofistikerte sårbarheter, oppdage manipulasjon og distribuere disse systemene pålitelig i kritiske scenarier.

Konseptuelle rom og hypotesen om lineær representasjon
En av de kraftigste innsiktene for å forstå mekanistisk tolkbarhet er ideen om at nevrale nettverk konstruerer høydimensjonale «konseptuelle rom».I stedet for å tenke på betydninger som definisjoner i en ordbok, kan vi se dem som punkter i et enormt vektorrom, implisitt i nettverket, dannet av vektene og aktiveringene på tvers av lagene.
Dette rommet er ikke fysisk; det er en bivirkning av hvordan nettverket behandler signaler.Hver input (tekstlige konsepter som et ord, en piksel, en lyd, et stedsnavn, en kodebit) er kartlagt til en vektor i et flerdimensjonalt rom. Denne vektoren fanger opp alt modellen «anså som relevant» om den inputen, basert på treningen, og kan kode semantiske nyanser, stil, kontekst, intensjon og mye mer.
Den såkalte lineære representasjonshypotesen sier at mange av disse interne konseptene kan sees på som lineære retninger i dette rommet.Med andre ord, det finnes én retning som tilsvarer «ros», en annen «kodingsfeil», en annen «digital bakdør», og så videre. Mer komplekse konsepter kan dannes ved å kombinere flere av disse grunnleggende retningene.
Dette betyr at enhver type informasjon – språk, syn, lyd, bevegelse – kan representeres som vektorer i dette samme konseptuelle rommet.Når en LLM behandler en setning, for eksempel, sporer den i utgangspunktet en bane i det rommet, og oppdaterer kontekstvektoren med hvert token for å fange opp den akkumulerte betydningen frem til det punktet.
Dette perspektivet forklarer også hvorfor det er mulig å «navigere» mellom konsepter, kombinere dem eller trekke dem fra.Ved å flytte vektoren fra ett punkt til et annet i en bestemt retning, kan vi gå fra «katt» til «feit katt», «smart katt», «lat katt»; eller til og med overgangen mellom språk, og opprettholde det samme underliggende konseptet mens overflaten (ordet) endres.
Begreper definert av forskjeller: ingenting eksisterer isolert.
Et fascinerende aspekt ved denne modellen er at ingenting har absolutt betydning for nettverket; alt er definert av sine forhold til resten av rommet.Ideen om «katt» kommer ikke fra en intern tekstlig definisjon, men fra dens posisjon i forhold til «elefant», «bord», «hund», «rød», «hårete», «lett», «tung» og så videre.
Hvis du vet at en elefant er større og tyngre enn en katt, mindre lodden, med en annen tekstur, og at et bord er mer skinnende enn begge deler, ikke lodden, større enn en katt og mindre enn en elefant.Så begynner en struktur å dukke opp: «størrelse», «vekt», «tekstur», «hår», «glans». Disse dimensjonene trenger ikke å samsvare direkte med de vi bruker i sunn fornuft, men de fungerer som akser som organiserer konsepter på en måte som er nyttig for modellen.
Etter hvert som rommet fylles med konsepter, forfiner disse kryssrelasjonene både selve konseptene og de «latente dimensjonene».I praksis, jo mer modellen lærer og justerer vektene sine, desto rikere blir disse interne representasjonene, noe som gir mulighet for stadig mer subtile og kontekstuelt passende prediksjoner.
Det er viktig å huske at «størrelse», «vekt» eller «hårete» er praktiske metaforer.I virkeligheten kan dimensjonene som brukes av AI fange opp ekstremt komplekse mønstre som ikke passer inn i enkle kategorier for mennesker. De kan være ikke-trivielle kombinasjoner av syntaktiske, semantiske, visuelle, romlige, stilistiske og andre aspekter.
På en måte utgjør dette vektorrommet en intern «verdensmodell».Det er ikke bare et abstrakt konsept: det er noe konkret som skjer i dag i nevrale nettverk og LLM-er. Når vi sier at en modell «forstår» noe, er det vi faktisk ser resultatet av den prosessen med å posisjonere og relatere vektorer i det implisitte konseptuelle rommet.
Fra ressursmikroskopi til store AI-selskaper
I de senere årene har mekanistisk tolkbarhet tatt et sprang fremover takket være nye verktøy som metaforisk sett fungerer som mikroskoper for språkmodeller.I stedet for bare å observere innganger og utganger, begynte forskere å direkte inspisere de interne aktiveringene og spesifikke områdene i vektorrommet der visse konsepter befinner seg.
Selskaper som Anthropic, OpenAI, Google DeepMind og prosjekter som Neuronpedia har ledet denne innsatsen.Anthropic annonserte for eksempel en teknikk kalt et «mikroskop» for å se inn i Claude-modellen sin og identifisere interne trekk som samsvarer med gjenkjennelige konsepter, som Michael Jordan, Golden Gate-broen, eller til og med abstrakte ideer som «smiger» og «digitale bakdører».
Deretter gikk forskningen videre til å spore hele ressurskjeder.Dette viser ikke bare at en nevron eller vektor er assosiert med et konsept, men også hvordan dette konseptet aktiveres, transformeres og kombineres på tvers av lag, fra den første kommandoen til den endelige responsen. Dette lar oss for eksempel forstå hvilke deler av modellen som deltar i en spesifikk villedende atferd eller hallusinasjon.
Team fra OpenAI og Google DeepMind har begynt å bruke lignende teknikker for å undersøke uventet atferd.Dette inkluderer situasjoner der modeller tilsynelatende prøver å lure brukere i kontrollerte tester. Ved å koble interne ressurser til disse atferdsmønstrene blir det mulig å overvåke og i noen tilfeller modifisere modellen for å redusere risikoer.
En annen lovende tilnærming er det som kalles «tankekjedeovervåking».I «resonnementsmodeller», som genererer eksplisitte mellomtrinn (som begrunnelser eller delvise beregninger), analyserer forskere denne «interne monologen» for å oppdage uønskede strategier – for eksempel en modell som finner en måte å «jukse» på en programmeringstest ved å bruke treningskunnskap som burde blokkeres.
Overlappende, sparsomme autoenkodere og monosemantiske funksjoner
En av de største hindringene for mekanistisk tolkbarhet er den såkalte superposisjonshypotesen.I store nevrale nettverk representerer en enkelt nevron eller dimensjon knapt et enkelt "rent" konsept; i stedet eksisterer flere konsepter side om side komprimert til noen få dimensjoner, som overlapper hverandre som flere bilder projisert på samme plan.
Denne overlappingen gjør det vanskelig å peke på en nevron og si: «dette er bare konsept X.»Tilsynelatende urelatert atferd kan aktivere de samme interne komponentene, noe som forvirrer analysen. For å håndtere dette har det dukket opp et kraftig verktøy: sparsomme autoencodere, brukt på de interne aktiveringene av modellene.
Sparse autoencodere er hjelpenettverk som er trent til å omformatere disse kaotiske aktiveringene til et renere sett med funksjoner.Tanken er å komprimere og deretter rekonstruere aktiveringene, og oppmuntre hjelpemodellen til å bruke få ressurser om gangen (sparsomhet). Resultatet er et sett med "funksjoner" som er nærmere monosemantiske representasjoner: hver ressurs har en tendens til å korrespondere med et mer spesifikt og forståelig mønster.
Nyere forskning viser at ved å bruke sparse autoencodere på LLM-er i produksjon, er det mulig å trekke ut funksjoner som er i tråd med menneskelige konsepter....inkludert på flere språk, så vel som abstrakte begreper som «kodingsfeil», «tvungen ros», «digital sårbarhet» og så videre. Dette forsterker hypotesen om lineær representasjon: mange av disse konseptene oppfører seg faktisk som rimelig separerbare retninger i vektorrommet.
Det neste trinnet er å manipulere disse ressursene for å se hvordan modellens oppførsel endres.Ved å forsterke eller hemme visse interne vektorer kan forskere gjøre en modell mer sannsynlig å følge trygge instruksjoner, mindre sannsynlig å gi farlig innhold, eller mer nøyaktig i å reagere på et gitt domene – alt uten å endre de opprinnelige vektene, bare ved å modulere aktiveringene.
Geospatial mekanistisk tolkbarhet
En spesielt interessant anvendelse er geospatial mekanistisk tolkbarhet, som forsøker å forstå hvordan LLM-er representerer geografisk informasjon internt.Innen geografi finnes det allerede et økende antall studier som evaluerer om modeller «vet» hvor steder befinner seg, om de kan utføre romlig resonnement eller svare på spørsmål om plassering.
Det som fortsatt var dårlig forstått, var hvordan disse evnene dukker opp i modellen.Hvordan organiserer det interne konseptuelle rommet navn på byer, land, regioner, elver eller severdigheter? Hva slags skjult romlig struktur dukker opp i vektorene knyttet til stedsnavn?
Nyere forskning har foreslått et nytt metodisk rammeverk: bruk av klassiske romlige analyseteknikker som verktøy for reverse engineering.Først innhentes interne vektorer (eller trekk utledet av sparsomme autokodere) for et stort antall stedsnavn. Deretter brukes romlig autokorrelasjon og andre målinger for å sjekke om spesifikke trekk viser konsistente geografiske mønstre.
Resultatene viser at visse trekk knyttet til stedsnavn har sterk romlig struktur.Med andre ord har geografisk nærliggende punkter en tendens til å dele lignende aktiveringer, noe som gjør at disse ressursene kan tolkes i geospatiale termer: for eksempel som regioner, klimasoner, kystnærhet, urbanisering eller andre latente mønstre.
Denne typen analyse bidrar til å forstå «hvordan modellen tenker på geografisk informasjon». (pass på å unngå antropomorfisme). I stedet for bare å vite at modellen svarer riktig på spørsmål om kart, kan vi se at det finnes strukturerte klynger i vektorrommet som gjenspeiler reelle geografiske forhold.
Forholdet til filosofi, kognisjon og bevissthet.
Det er vanskelig å se på disse svært dimensjonale konseptuelle rommene og ikke se paralleller med filosofiske diskusjoner om sinn, mening og bevissthet.I flere tiår har filosofer som Peter Gärdenfors snakket om «konseptuelle rom» som en måte å modellere mentale konsepter gjennom kontinuerlige dimensjoner som fanger opp likhet.
Det som har endret seg er at med moderne nevrale nettverk har noe veldig lignende sluttet å bare være en filosofisk metafor og har blitt en konkret mekanisme i produksjonssystemer.I dag kan vi peke på vektorer, retninger og avstander i en LLM og vise at de korresponderer med meningsforhold, oversettelse mellom språk, abstraksjoner og til og med subtile atferdsmønstre.
Noen ser dette som en ledetråd til hvordan den menneskelige hjernen kan representere konsepter.Gitt at det finnes et sterkt syn innen nevrovitenskap som beskriver hjernen som en prediksjonsmaskin, som konstant prøver å forutse hva som skjer videre basert på sensoriske signaler og akkumulert erfaring. I noen debatter står dette i kontrast til stimulus-respons-teorisom gir et annet perspektiv på hvordan atferd og representasjon kan forholde seg til hverandre.
Hvis vi forutsier verden hele tiden, virker det rimelig å forestille seg at en slags vektorrepresentasjon – eller tilsvarende – er i kontinuerlig prosessering.Det er ikke slik at det finnes en «fysisk vektor» på et bestemt punkt i hjernen, men snarere et dynamisk aktivitetsmønster som, funksjonelt sett, oppfører seg som en tilstand i et konseptuelt rom.
Noen forfattere antyder at dette kan være relatert til kvaliteter og subjektiv opplevelse.Når du ser fargen rød, har du ikke bare å gjøre med lysets bølgelengde; det er også «ideen om rødt» i tankene dine, knyttet til minner, følelser og kulturell kontekst. Denne representasjonen er unik for deg, selv om den deler noen felles strukturer med andre mennesker.
Hvilken rolle spiller tolkbarhet i alt dette?
Mekanistisk tolkbarhet har ikke til hensikt å bevise at AI er bevisst eller følende.Mest seriøs forskning viser tydelig at fokuset er teknisk: forståelse av beregningsmekanismer for å forbedre sikkerhet, pålitelighet, feildiagnostikk, robusthet og overvåking.
Ved å vise hvordan komplekse konsepter kan oppstå fra vektorer og relasjoner i et høydimensjonalt romDette området gir fotfeste for teorier om mental representasjon, mening og til og med bevissthet. Hvis en modell kan representere «rødt» rikt nok til å operere med dette konseptet i ulike sammenhenger, gjør ikke dette det bevisst, men det tvinger oss til å forfine nøyaktig hva vi anser som essensielt for at en subjektiv opplevelse skal oppstå.
Fra et praktisk synspunkt er det store løftet om mekanistisk tolkbarhet å gi oss verktøyene til å se det som for øyeblikket er usynlig.Hvilke deler av modellen er involvert når den hallusinerer, når den følger farlige instruksjoner, når den demonstrerer skjevhet, eller når den ser ut til å «planlegge» en villedende respons?
Med denne typen internt kart blir det mulig å overvåke modeller i sanntid, designe finere kontrollmekanismer og i noen tilfeller direkte redigere interne ressurser for å endre atferd.Alt dette er avgjørende i et scenario der lover og andre kunstig intelligens-systemer blir distribuert i sensitive domener, fra finans til helsevesen, sikkerhet og offentlig politikk.
Til syvende og sist betyr det å forstå mekanistisk tolkbarhet å forstå hvordan AI-modeller konstruerer og bruker sin interne «modell av verden».Enten det gjelder å navigere i hverdagskonsepter, håndtere kompleks geografisk informasjon eller svare på tilsynelatende enkle spørsmål i en samtale, jo mer vi kan belyse disse mekanismene, desto mindre sannsynlig er det at vi blir overrasket av merkelig atferd fra systemer som, til tross for at de er mektige, fortsatt er produkter av matematikk, data og trening – og ikke av en eller annen mystisk form for bevissthet.