- Mechanistická interpretovateľnosť študuje váhy, aktivácie a vnútorné obvody, aby vysvetlila, ako neurónové siete a LLM vykonávajú svoje výpočty.
- Modely organizujú významy do vysokorozmerných koncepčných priestorov, pričom koncepty sú reprezentované ako lineárne smery vo vektoroch.
- Nástroje ako „mikroskopy“ prvkov a riedke autoenkodéry vám umožňujú extrahovať, analyzovať a dokonca manipulovať s vnútornými vlastnosťami modelov.
- Aplikácie ako geopriestorová interpretovateľnosť ukazujú, ako LLM štruktúruje geografické informácie, čím približuje umelú inteligenciu k diskusiám o kognícii a bezpečnosti.

Mechanistická interpretovateľnosť sa stáva jednou z najzaujímavejších a najdôležitejších oblastí výskumu v rámci modernej umelej inteligencie.Toto je obzvlášť dôležité, pretože hlboké neurónové siete a modely rozsiahlych jazykov (LLM) začínajú ovplyvňovať rozhodnutia prakticky v každej oblasti. Namiesto toho, aby sa tento prístup pozeral len na konečný výkon modelu, pýta sa: čo presne sa deje vo vnútri, vo váhach a aktiváciách, keď umelá inteligencia robí predpoveď, píše text alebo rieši zložitý problém?
Pojem „čierna skrinka“ nebol nikdy relevantnejší ako teraz.Stovky miliónov ľudí denne používajú chatboty, ale ani tímy, ktoré tieto systémy vyvíjajú, úplne nechápu, ako dospievajú k určitým odpovediam, prečo „halucinujú“ fakty alebo v akých situáciách sa môžu správať klamlivo. Mechanistická interpretovateľnosť sa objavuje práve preto, aby otvorila túto čiernu skrinku, zmapovala jej vnútorné mechanizmy a prepojila neuróny, zdroje a obvody s konceptmi, ktorým rozumieme.
Čo presne je mechanistická interpretovateľnosť?
Mechanistická interpretovateľnosť je systematické štúdium vnútornej štruktúry modelov umelej inteligencie so zameraním na váhy, aktivácie a medziľahlé „výpočty“.pochopiť, ako vykonávajú svoje úlohy. Namiesto toho, aby sa s neurónovou sieťou zaobchádzalo ako s nepriehľadným blokom, ktorý transformuje vstup na výstup, sa táto oblasť pokúša rozložiť model na menšie komponenty – neuróny, hlavičky pozornosti, vrstvy, lineárne prvky – a prepojiť každú časť s pozorovateľným správaním.
Ústredným cieľom nie je len „neskoršie vysvetliť“ izolované rozhodnutie, ale vytvoriť podrobnú mapu interných výpočtov modelu.To zahŕňa identifikáciu neurónov alebo kombinácií neurónov, ktoré predstavujú určité vzory (ako sú vlastné mená, kódové štruktúry, emocionálne tóny, škodlivé inštrukcie), ako sú tieto reprezentácie kombinované medzi vrstvami a ako to všetko vedie ku konkrétnemu výstupu.
Táto perspektíva sa vo vedeckej komunite rýchlo rozširuje.Vďaka špecializovaným workshopom (ako napríklad prvý veľký workshop o mechanistickej interpretovateľnosti na významných konferenciách o strojovom učení), desiatkam startupov zameraných na túto tému a rastúcemu počtu analytických nástrojov objem článkov predložených na špecializované workshopy ľahko presahuje sto na vydanie, čo ukazuje, že táto oblasť prestala byť len špecializovanou oblasťou a stala sa konsolidovanou oblasťou v plnom rozmachu.
Veľkou výzvou je zmenšiť rozdiel medzi pôsobivým výkonom modelov a naším chápaním týchto modelov.Pokiaľ budeme naďalej považovať LLM a neurónové siete za štatistické záhady, bude oveľa ťažšie predpovedať správanie na okrajoch, identifikovať sofistikované zraniteľnosti, odhaliť manipuláciu a spoľahlivo nasadiť tieto systémy v kritických scenároch.

Konceptuálne priestory a hypotéza lineárnej reprezentácie
Jedným z najsilnejších poznatkov pre pochopenie mechanistickej interpretovateľnosti je myšlienka, že neurónové siete vytvárajú vysokorozmerné „konceptuálne priestory“.Namiesto toho, aby sme významy vnímali ako definície v slovníku, môžeme ich vnímať ako body v obrovskom vektorovom priestore, implicitne obsiahnutom v sieti, tvorenom váhami a aktiváciami naprieč vrstvami.
Tento priestor nie je fyzický; je to vedľajší účinok toho, ako sieť spracováva signály.Každý vstup (textové koncepty ako slovo, pixel, zvuk, názov miesta, úryvok kódu) je namapovaný na vektor v viacrozmernom priestore. Tento vektor zachytáva všetko, čo model „považoval za relevantné“ o danom vstupe na základe jeho trénovania, a dokáže kódovať sémantické nuansy, štýl, kontext, zámer a oveľa viac.
Takzvaná hypotéza lineárnej reprezentácie tvrdí, že mnohé z týchto vnútorných konceptov možno v tomto priestore vnímať ako lineárne smery.Inými slovami, jeden smer zodpovedá „chvále“, iný „chybe v kódovaní“, ďalší „digitálnym zadným vrátkam“ atď. Zložitejšie koncepty možno vytvoriť kombináciou niekoľkých z týchto základných smerov.
To znamená, že akýkoľvek typ informácie – jazyk, zrak, zvuk, pohyb – možno v tom istom koncepčnom priestore reprezentovať ako vektory.Keď napríklad LLM spracováva vetu, v podstate sleduje cestu v tomto priestore a aktualizuje kontextový vektor s každým tokenom, aby zachytil nahromadený význam až do tohto bodu.
Táto perspektíva tiež vysvetľuje, prečo je možné „prechádzať“ medzi konceptmi, kombinovať ich alebo odoberať.Presunutím vektora z jedného bodu do druhého v určitom smere môžeme prejsť z výrazu „mačka“ na „tučná mačka“, „múdra mačka“, „lenivá mačka“; alebo dokonca prechádzať medzi jazykmi, pričom zachovávame rovnaký základný koncept, zatiaľ čo sa povrch (slovo) mení.
Pojmy definované rozdielmi: nič neexistuje izolovane.
Fascinujúcim aspektom tohto modelu je, že pre sieť nemá nič absolútny význam; všetko je definované jej vzťahmi so zvyškom priestoru.Myšlienka „mačky“ nepochádza z vnútornej textovej definície, ale z jej postavenia vo vzťahu k slovám „slon“, „stol“, „ps“, „červený“, „chlpatý“, „ľahký“, „ťažký“ atď.
Ak viete, že slon je väčší a ťažší ako mačka, menej chlpatý, s inou textúrou a že stôl je lesklejší ako oboje, nie chlpatý, väčší ako mačka a menší ako slon.Potom sa začína objavovať štruktúra: „veľkosť“, „hmotnosť“, „textúra“, „vlasy“, „lesk“. Tieto dimenzie nemusia priamo zodpovedať tým, ktoré používame v bežnom rozume, ale fungujú ako osi, ktoré organizujú koncepty spôsobom, ktorý je užitočný pre model.
Ako sa priestor zapĺňa konceptmi, tieto krížové vzťahy spresňujú samotné koncepty aj „latentné dimenzie“.V praxi platí, že čím viac sa model učí a upravuje svoje váhy, tým bohatšie sú tieto interné reprezentácie, čo umožňuje čoraz jemnejšie a kontextovo vhodnejšie predpovede.
Je dôležité si uvedomiť, že „veľkosť“, „hmotnosť“ alebo „chlpatý“ sú vhodné metafory.V skutočnosti dimenzie používané umelou inteligenciou dokážu zachytiť extrémne zložité vzory, ktoré pre ľudí nezodpovedajú jednoduchým kategóriám. Môžu to byť netriviálne kombinácie syntaktických, sémantických, vizuálnych, priestorových, štylistických a iných aspektov.
V istom zmysle tento vektorový priestor predstavuje vnútorný „model sveta“.Nie je to len abstraktný koncept: je to niečo konkrétne, čo sa dnes deje v neurónových sieťach a LLM. Keď hovoríme, že model niečomu „rozumie“, to, čo v skutočnosti vidíme, je výsledok tohto procesu umiestňovania a prepojenia vektorov v tomto implicitnom koncepčnom priestore.
Od mikroskopie zdrojov k veľkým spoločnostiam zameraným na umelú inteligenciu
V posledných rokoch sa mechanistická interpretovateľnosť posunula vpred vďaka novým nástrojom, ktoré metaforicky fungujú ako mikroskopy pre jazykové modely.Namiesto toho, aby len pozorovali vstupy a výstupy, začali výskumníci priamo skúmať vnútorné aktivácie a špecifické oblasti vektorového priestoru, kde sa nachádzajú určité koncepty.
Toto úsilie vedú spoločnosti ako Anthropic, OpenAI, Google DeepMind a projekty ako Neuronpedia.Napríklad spoločnosť Anthropic oznámila techniku nazvanú „mikroskop“, ktorá umožňuje nahliadnuť do svojho Claudeovho modelu a identifikovať vnútorné prvky, ktoré zodpovedajú rozpoznateľným konceptom, ako je Michael Jordan, most Golden Gate alebo dokonca abstraktné myšlienky ako „lichôtky“ a „digitálne zadné vrátka“.
Následne výskum pokročil k sledovaniu celých reťazcov zdrojov.To ukazuje nielen to, že neurón alebo vektor je spojený s konceptom, ale aj to, ako je tento koncept aktivovaný, transformovaný a kombinovaný naprieč vrstvami, od počiatočného príkazu až po konečnú odpoveď. To nám napríklad umožňuje pochopiť, ktoré časti modelu sa podieľajú na konkrétnom klamlivom správaní alebo halucinácii.
Tímy z OpenAI a Google DeepMind začali používať podobné techniky na vyšetrovanie neočakávaného správania.Patria sem situácie, v ktorých sa zdá, že modely sa v kontrolovaných testoch snažia oklamať používateľov. Prepojením interných zdrojov s týmito vzormi správania je možné monitorovať a v niektorých prípadoch aj upravovať model s cieľom znížiť riziká.
Ďalším sľubným prístupom je to, čo sa nazýva „monitorovanie myšlienkového reťazca“.V „uvažovacích“ modeloch, ktoré generujú explicitné medzikroky (ako sú zdôvodnenia alebo čiastočné výpočty), výskumníci analyzujú tento „vnútorný monológ“, aby odhalili nežiaduce stratégie – napríklad model, ktorý nájde spôsob, ako „podvádzať“ v programovacom teste pomocou trénovacích znalostí, ktoré by mali byť blokované.
Prekrývajúce sa, riedke autoenkodéry a monosémantické prvky
Jednou z hlavných prekážok mechanistickej interpretovateľnosti je takzvaná hypotéza superpozície.Vo veľkých neurónových sieťach jeden neurón alebo dimenzia sotva predstavuje jeden „čistý“ koncept; namiesto toho existuje viacero konceptov, ktoré sú komprimované do niekoľkých dimenzií a prekrývajú sa ako viacero obrazov premietaných do tej istej roviny.
Kvôli tomuto prekrývaniu je ťažké ukázať na neurón a povedať: „Toto je len koncept X.“Zdanlivo nesúvisiace správanie môže aktivovať rovnaké interné komponenty, čo mätie analýzu. Na riešenie tohto problému sa objavil účinný nástroj: riedke autoenkodéry, ktoré sa používajú na interné aktivácie modelov.
Riedke autoenkodéry sú pomocné siete vyškolené na preformátovanie týchto chaotických aktivácií do čistejšej sady funkcií.Cieľom je skomprimovať a potom rekonštruovať aktivácie, čím sa pomocný model povzbudí k používaniu menšieho počtu zdrojov naraz (riedkosť). Výsledkom je súbor „prvkov“ bližších monosémantickým reprezentáciám: každý zdroj má tendenciu zodpovedať špecifickejšiemu a zrozumiteľnejšiemu vzoru.
Nedávny výskum ukazuje, že použitím riedkych autoenkodérov na LLM v produkčnom prostredí je možné extrahovať funkcie, ktoré sú v súlade s ľudskými konceptmi....vrátane viacerých jazykov, ako aj abstraktné pojmy ako „chyba kódovania“, „vynútená chvála“, „digitálna zraniteľnosť“ atď. To posilňuje hypotézu lineárnej reprezentácie: mnohé z týchto konceptov sa v skutočnosti správajú ako rozumne oddeliteľné smery vo vektorovom priestore.
Ďalším krokom je manipulácia s týmito zdrojmi, aby sa zistilo, ako sa mení správanie modelu.Zosilnením alebo inhibíciou určitých interných vektorov môžu výskumníci zvýšiť pravdepodobnosť, že model bude nasledovať bezpečné pokyny, zníži pravdepodobnosť, že poskytne nebezpečný obsah, alebo presnejšie bude reagovať na danú doménu – to všetko bez zmeny pôvodných váh, iba moduláciou aktivácií.
Geopriestorová mechanistická interpretovateľnosť
Jednou obzvlášť zaujímavou aplikáciou je geopriestorová mechanistická interpretovateľnosť, ktorá sa snaží pochopiť, ako LLM interne reprezentujú geografické informácie.V geografii už existuje rastúci počet prác, ktoré hodnotia, či modely „vedia“, kde sa miesta nachádzajú, či dokážu vykonávať priestorové uvažovanie alebo odpovedať na otázky týkajúce sa polohy.
Stále nebolo celkom pochopené, ako sa tieto schopnosti v rámci modelu prejavujú.Ako vnútorný koncepčný priestor organizuje názvy miest, krajín, regiónov, riek alebo zaujímavých miest? Aký druh skrytej priestorovej štruktúry sa objavuje vo vektoroch spojených s názvami miest?
Nedávny výskum navrhol nový metodologický rámec: použitie klasických techník priestorovej analýzy ako nástrojov reverzného inžinierstva.Najprv sa pre veľký počet názvov miest získajú interné vektory (alebo prvky odvodené riedkymi autoenkodéry). Potom sa priestorová autokorelácia a ďalšie metriky použijú na kontrolu, či konkrétne prvky vykazujú konzistentné geografické vzory.
Výsledky ukazujú, že určité prvky spojené s názvami miest vykazujú silnú priestorovú štruktúru.Inými slovami, geograficky blízke body majú tendenciu zdieľať podobné aktivácie, čo umožňuje interpretovať tieto zdroje z geopriestorového hľadiska: napríklad ako regióny, klimatické zóny, blízkosť pobrežia, urbanizácia alebo iné latentné vzorce.
Tento typ analýzy pomáha pochopiť, „ako model uvažuje o geografických informáciách“. (dbáme na to, aby sme sa vyhli antropomorfizmu). Namiesto jednoduchého vedomia, že model správne odpovedá na otázky týkajúce sa máp, môžeme vidieť, že vo vektorovom priestore existujú štruktúrované zhluky, ktoré odrážajú skutočné geografické vzťahy.
Vzťah k filozofii, poznávaniu a vedomiu.
Je ťažké pozerať sa na tieto vysoko dimenzionálne konceptuálne priestory a nevidieť paralely s filozofickými diskusiami o mysli, význame a vedomí.Filozofi ako Peter Gärdenfors už desaťročia hovoria o „konceptuálnych priestoroch“ ako o spôsobe modelovania mentálnych konceptov prostredníctvom spojitých dimenzií, ktoré zachytávajú podobnosť.
Zmenilo sa to, že s modernými neurónovými sieťami niečo veľmi podobné prestalo byť len filozofickou metaforou a stalo sa konkrétnym mechanizmom vo výrobných systémoch.Dnes môžeme v LLM poukázať na vektory, smery a vzdialenosti a ukázať, že zodpovedajú vzťahom významu, prekladu medzi jazykmi, abstrakciám a dokonca aj jemným vzorcom správania.
Niektorí to považujú za kľúč k tomu, ako by ľudský mozog mohol reprezentovať koncepty.Vzhľadom na to, že v neurovede existuje silný názor, ktorý opisuje mozog ako predikčný stroj, ktorý sa neustále snaží predvídať, čo bude nasledovať, na základe zmyslových signálov a nahromadených skúseností. V niektorých debatách sa to kladie do kontrastu s... teória stimulu a reakciečo ponúka iný pohľad na to, ako môže správanie a reprezentácia súvisieť.
Ak neustále predpovedáme svet, zdá sa rozumné si predstaviť, že nejaký druh vektorovej reprezentácie – alebo ekvivalent – sa neustále spracováva.Nejde o to, že by v konkrétnom bode mozgu existoval „fyzický vektor“, ale skôr o dynamický vzorec aktivity, ktorý sa z funkčného hľadiska správa ako stav v koncepčnom priestore.
Niektorí autori naznačujú, že to môže súvisieť s kváliami a subjektívnou skúsenosťou.Keď vidíte červenú farbu, nemáte do činenia len s vlnovou dĺžkou svetla; vo vašej mysli existuje aj „idea červenej“, ktorá je spojená so spomienkami, emóciami a kultúrnym kontextom. Táto reprezentácia je pre vás jedinečná, hoci zdieľa niektoré spoločné štruktúry s inými ľuďmi.
Akú úlohu v tom všetkom zohráva interpretovateľnosť?
Mechanistická interpretovateľnosť nemá za cieľ dokázať, že umelá inteligencia je vedomá alebo vnímavá.Väčšina seriózneho výskumu jasne ukazuje, že zameranie je technické: pochopenie výpočtových mechanizmov na zlepšenie bezpečnosti, spoľahlivosti, diagnostiky porúch, robustnosti a dohľadu.
Avšak ukážkou toho, ako môžu komplexné koncepty vzniknúť z vektorov a vzťahov vo vysokorozmernom priestoreTáto oblasť poskytuje oporu pre teórie o mentálnej reprezentácii, význame a dokonca aj vedomí. Ak model dokáže reprezentovať „červenú“ dostatočne bohato na to, aby s týmto konceptom fungoval v rôznych kontextoch, neznamená to, že je vedomý, ale núti nás to spresniť, čo presne považujeme za podstatné pre vznik subjektívneho zážitku.
Z praktického hľadiska je veľkým prísľubom mechanistickej interpretovateľnosti to, že nám poskytne nástroje na to, aby sme videli to, čo je v súčasnosti neviditeľné.Ktoré časti modelu sú zapojené, keď má halucinácie, keď nasleduje nebezpečné pokyny, keď prejavuje zaujatosť alebo keď sa zdá, že „plánuje“ klamlivú odpoveď?
S týmto typom internej mapy je možné monitorovať modely v reálnom čase, navrhovať jemnejšie riadiace mechanizmy a v niektorých prípadoch priamo upravovať interné zdroje s cieľom zmeniť správanie.Toto všetko je kľúčové v scenári, kde sa LLM a iné systémy umelej inteligencie nasadzujú v citlivých oblastiach, od financií cez zdravotníctvo až po bezpečnosť a verejnú politiku.
V konečnom dôsledku pochopenie mechanistickej interpretovateľnosti znamená pochopenie toho, ako modely umelej inteligencie vytvárajú a používajú svoj vnútorný „model sveta“.Či už ide o orientáciu v každodenných konceptoch, prácu so zložitými geografickými informáciami alebo odpovedanie na zdanlivo jednoduché otázky v konverzácii, čím viac dokážeme objasniť tieto mechanizmy, tým menej je pravdepodobné, že nás prekvapí zvláštne správanie systémov, ktoré sú napriek svojej sile stále produktom matematiky, dát a tréningu – a nie nejakej tajomnej formy vedomia.