Mehāniskā interpretējamība: kā mākslīgais intelekts konstruē un atklāj savus iekšējos modeļus

Pēdējā atjaunošana: 22 Žaneiro, 2026
  • Mehāniskā interpretējamība pēta svarus, aktivācijas un iekšējās shēmas, lai izskaidrotu, kā neironu tīkli un LLM veic savus aprēķinus.
  • Modeļi organizē nozīmes daudzdimensionālās konceptuālās telpās, kur jēdzieni tiek attēloti kā lineāri virzieni vektoros.
  • Tādi rīki kā iezīmju "mikroskopi" un reti autoenkodētāji ļauj iegūt, analizēt un pat manipulēt ar modeļu iekšējām iezīmēm.
  • Tādas lietojumprogrammas kā ģeotelpiskā interpretējamība parāda, kā tiesību zinātņu maģistrantūras studenti strukturē ģeogrāfisko informāciju, tuvinot mākslīgo intelektu debatēm par izziņu un drošību.

Mehāniskā interpretējamība mākslīgajā intelektā

Mehāniskā interpretējamība kļūst par vienu no aizraujošākajiem un svarīgākajiem pētījumu virzieniem mūsdienu mākslīgajā intelektā.Tas ir īpaši svarīgi, jo dziļi neironu tīkli un liela mēroga valodu modeļi (LLM) sāk ietekmēt lēmumus praktiski visās jomās. Tā vietā, lai tikai aplūkotu modeļa galīgo veiktspēju, šī pieeja uzdod jautājumu: kas īsti notiek iekšpusē, svaros un aktivācijās, kad mākslīgais intelekts izdara prognozi, raksta tekstu vai risina sarežģītu problēmu?

Termins "melnā kaste" nekad nav bijis aktuālāks kā tagad.Simtiem miljonu cilvēku katru dienu izmanto tērzēšanas robotprogrammatūras, taču pat komandas, kas izstrādā šīs sistēmas, pilnībā nesaprot, kā tās nonāk pie noteiktām atbildēm, kāpēc tās "halucinē" faktus vai kādās situācijās tās varētu uzvesties maldinoši. Mehāniskā interpretējamība rodas tieši tāpēc, lai atvērtu šo melno kasti, kartētu tās iekšējos mehānismus un savienotu neironus, resursus un shēmas ar jēdzieniem, ko mēs varam saprast.

Kas īsti ir mehāniskā interpretējamība?

Mehāniskā interpretējamība ir sistemātiska mākslīgā intelekta modeļu iekšējās struktūras izpēte, koncentrējoties uz svariem, aktivācijām un starpposma "aprēķiniem".lai saprastu, kā viņi veic savus uzdevumus. Tā vietā, lai neironu tīklu uzskatītu par necaurspīdīgu bloku, kas pārveido ievadi izvadē, šī joma mēģina sadalīt modeli mazākās sastāvdaļās — neironos, uzmanības galviņās, slāņos, lineārās īpašībās — un sasaistīt katru daļu ar novērojamu uzvedību.

Galvenais mērķis nav tikai "vēlāk izskaidrot" atsevišķu lēmumu, bet gan izveidot detalizētu modeļa iekšējo aprēķinu karti.Tas ietver to neironu vai neironu kombināciju identificēšanu, kas attēlo noteiktus modeļus (piemēram, īpašvārdus, koda struktūras, emocionālus toņus, ļaunprātīgas instrukcijas), kā šīs reprezentācijas tiek apvienotas dažādos slāņos un kā tas viss rada konkrētu rezultātu.

Šis uzskats zinātnieku aprindās ir strauji attīstījies.Ar specializētām darbnīcām (piemēram, pirmo lielo darbnīcu par mehānisko interpretējamību lielākajās mašīnmācīšanās konferencēs), desmitiem jaunuzņēmumu, kas koncentrējas uz šo tēmu, un pieaugošu analītisko rīku skaitu, specializētajās darbnīcās iesniegto rakstu apjoms viegli pārsniedz simtu katrā izdevumā, kas liecina, ka šī vairs nav niša un ir kļuvusi par konsolidētu jomu pilnā paplašināšanās procesā.

Lielais izaicinājums ir samazināt plaisu starp modeļu iespaidīgo sniegumu un mūsu izpratni par tiem.Kamēr mēs turpināsim uzskatīt LLM un neironu tīklus par statistikas noslēpumiem, būs daudz grūtāk paredzēt perifērijas uzvedību, identificēt sarežģītas ievainojamības, atklāt manipulācijas un droši izvietot šīs sistēmas kritiskos scenārijos.

Iekšējās reprezentācijas valodu modeļos

Konceptuālās telpas un lineārās reprezentācijas hipotēze

Viena no spēcīgākajām atziņām mehāniskās interpretējamības izpratnei ir ideja, ka neironu tīkli konstruē augstas dimensijas “konceptuālās telpas”.Tā vietā, lai domātu par nozīmēm kā par vārdnīcas definīcijām, mēs varam tās uztvert kā punktus milzīgā vektoru telpā, kas ir netieši ietverta tīklā un ko veido svari un aktivācijas visos slāņos.

Šī telpa nav fiziska; tā ir blakusparādība tam, kā tīkls apstrādā signālus.Katrs ievades jēdziens (teksta jēdziens, piemēram, vārds, pikselis, skaņa, vietas nosaukums, koda fragments) tiek kartēts vektorā daudzdimensionālā telpā. Šis vektors ietver visu, ko modelis, pamatojoties uz apmācību, "uzskatīja par atbilstošu" attiecībā uz šo ievades informāciju, un var kodēt semantiskās nianses, stilu, kontekstu, nolūku un daudz ko citu.

Tā sauktā lineārās reprezentācijas hipotēze apgalvo, ka daudzus no šiem iekšējiem jēdzieniem var uzskatīt par lineāriem virzieniem šajā telpā.Citiem vārdiem sakot, ir viens virziens, kas atbilst "uzslavai", cits - "kodēšanas kļūdai", vēl cits - "digitālajām aizmugurējām durvīm" utt. Sarežģītākus jēdzienus var veidot, apvienojot vairākus no šiem pamatvirzieniem.

Saistītie:  Kas ir gaismas enerģija?

Tas nozīmē, ka jebkura veida informāciju — valodu, redzi, audio, kustību — var attēlot kā vektorus šajā pašā konceptuālajā telpā.Piemēram, kad LLM apstrādā teikumu, tas būtībā izseko ceļu šajā telpā, atjauninot konteksta vektoru ar katru marķieri, lai uztvertu līdz šim punktam uzkrāto nozīmi.

Šī perspektīva arī izskaidro, kāpēc ir iespējams "pārvietoties" starp jēdzieniem, tos apvienojot vai atņemot.Pārvietojot vektoru no viena punkta uz citu noteiktā virzienā, mēs varam pāriet no "kaķa" uz "resns kaķis", "gudrs kaķis", "slinks kaķis" vai pat pāriet starp valodām, saglabājot to pašu pamatjēdzienu, kamēr virsma (vārds) mainās.

Jēdzieni, ko definē atšķirības: nekas nepastāv atsevišķi.

Šī modeļa aizraujošs aspekts ir tas, ka tīklam nekam nav absolūtas nozīmes; visu nosaka tā attiecības ar pārējo telpu.Vārds "kaķis" nerodas no iekšējas teksta definīcijas, bet gan no tā pozīcijas attiecībā pret "ziloni", "galdu", "sunu", "sarkanu", "matainu", "vieglu", "smagu" utt.

Ja zini, ka zilonis ir lielāks un smagāks par kaķi, mazāk pūkains, ar atšķirīgu tekstūru, un ka galds ir spīdīgāks par abiem, ne pūkains, lielāks par kaķi un mazāks par ziloni.Tad sāk parādīties struktūra: "izmērs", "svars", "tekstūra", "mati", "spīdums". Šīm dimensijām nav tieši jāatbilst tām, ko lietojam veselajā saprātā, taču tās darbojas kā asis, kas organizē jēdzienus modelim noderīgā veidā.

Telpai piepildoties ar jēdzieniem, šīs savstarpējās attiecības pilnveido gan pašus jēdzienus, gan "latentās dimensijas".Praktiski, jo vairāk modelis mācās un pielāgo savus svarus, jo bagātākas kļūst šīs iekšējās reprezentācijas, ļaujot veikt arvien smalkākas un kontekstuāli atbilstošākas prognozes.

Ir svarīgi atcerēties, ka "izmērs", "svars" vai "matains" ir ērtas metaforas.Patiesībā mākslīgā intelekta izmantotās dimensijas var uztvert ārkārtīgi sarežģītus modeļus, kas cilvēkiem neietilpst vienkāršās kategorijās. Tās var būt netriviālas sintaktisko, semantisko, vizuālo, telpisko, stilistisko un citu aspektu kombinācijas.

Savā ziņā šī vektoru telpa veido iekšēju “pasaules modeli”.Tas nav tikai abstrakts jēdziens: tā ir kaut kas konkrēts, kas mūsdienās notiek neironu tīklos un tiesību zinātņu vadlīnijās (LLM). Kad mēs sakām, ka modelis kaut ko "saprot", tas, ko mēs patiesībā redzam, ir šī pozicionēšanas un vektoru saistīšanas procesa rezultāts šajā netiešajā konceptuālajā telpā.

No resursu mikroskopijas līdz lieliem mākslīgā intelekta uzņēmumiem

Pēdējos gados mehāniskā interpretējamība ir spērusi lielu soli uz priekšu, pateicoties jauniem rīkiem, kas metaforiski darbojas kā valodas modeļu mikroskopi.Tā vietā, lai tikai novērotu ievades un izvades datus, pētnieki sāka tieši pārbaudīt vektoru telpas iekšējās aktivācijas un specifiskos reģionus, kur atrodas noteikti jēdzieni.

Šos centienus ir vadījuši tādi uzņēmumi kā Anthropic, OpenAI, Google DeepMind un tādi projekti kā Neuronpedia.Piemēram, uzņēmums “Anthropic” paziņoja par metodi, ko nodēvēja par “mikroskopu”, lai ieskatītos savā Kloda modelī un identificētu iekšējās iezīmes, kas atbilst atpazīstamiem jēdzieniem, piemēram, Maiklam Džordanam, Zelta Vārtu tiltam, vai pat abstraktām idejām, piemēram, “glaimiem” un “digitālajām aizmugurējām durvīm”.

Pēc tam pētījums attīstījās, izsekojot visas resursu ķēdes.Tas parāda ne tikai to, ka neirons vai vektors ir saistīts ar jēdzienu, bet arī to, kā šis jēdziens tiek aktivizēts, pārveidots un apvienots dažādos slāņos, sākot no sākotnējās komandas līdz galīgajai atbildei. Tas ļauj mums, piemēram, saprast, kuras modeļa daļas piedalās konkrētā maldinošā uzvedībā vai halucinācijās.

Saistītie:  7 svarīgākie kriminalizācijas principi

OpenAI un Google DeepMind komandas ir sākušas izmantot līdzīgas metodes, lai izpētītu negaidītu uzvedību.Tas ietver situācijas, kad modeļi, šķiet, mēģina maldināt lietotājus kontrolētos testos. Saistot iekšējos resursus ar šiem uzvedības modeļiem, kļūst iespējams uzraudzīt un dažos gadījumos modificēt modeli, lai samazinātu riskus.

Vēl viena daudzsološa pieeja ir tā sauktā "domu ķēdes uzraudzība"."Argumentācijas" modeļos, kas ģenerē skaidrus starpposmus (piemēram, pamatojumus vai daļējus aprēķinus), pētnieki analizē šo "iekšējo monologu", lai atklātu nevēlamas stratēģijas, piemēram, modeli, kas atrod veidu, kā "apkrāpties" programmēšanas testā, izmantojot apmācības zināšanas, kas būtu jābloķē.

Pārklājoši, reti autoenkodētāji un monosemantiskās funkcijas

Viens no galvenajiem mehāniskās interpretējamības šķēršļiem ir tā sauktā superpozīcijas hipotēze.Lielos neironu tīklos viens neirons vai dimensija diez vai attēlo vienu "tīru" jēdzienu; tā vietā vairāki jēdzieni pastāv līdzās, saspiesti dažās dimensijās, pārklājoties kā vairāki attēli, kas projicēti vienā plaknē.

Šī pārklāšanās apgrūtina norādīšanu uz neironu un apgalvojumu: "Tas ir tikai X jēdziens."Šķietami nesaistīta uzvedība var aktivizēt vienus un tos pašus iekšējos komponentus, radot neskaidrības analīzē. Lai ar to tiktu galā, ir parādījies spēcīgs rīks: reti autoenkodētāji, kas tiek piemēroti modeļu iekšējai aktivizēšanai.

Retie autoenkodētāji ir palīgtīkli, kas apmācīti pārformatēt šīs haotiskās aktivizācijas tīrākā funkciju kopā.Ideja ir saspiest un pēc tam rekonstruēt aktivācijas, mudinot palīgmodeli vienlaikus izmantot maz resursu (retums). Rezultāts ir "pazīmju" kopums, kas ir tuvāks monosemantiskām reprezentācijām: katrs resurss parasti atbilst specifiskākam un saprotamākam modelim.

Jaunākie pētījumi liecina, ka, lietojot retus autoenkoderus LLMs ražošanā, ir iespējams iegūt pazīmes, kas saskaņotas ar cilvēku jēdzieniem....tostarp vairākās valodās, kā arī abstraktus jēdzienus, piemēram, "kodēšanas kļūda", "piespiedu uzslava", "digitālā ievainojamība" utt. Tas pastiprina lineārās attēlošanas hipotēzi: daudzi no šiem jēdzieniem faktiski uzvedas kā samērā atdalāmi virzieni vektoru telpā.

Nākamais solis ir manipulēt ar šiem resursiem, lai redzētu, kā mainās modeļa uzvedība.Pastiprinot vai kavējot noteiktus iekšējos vektorus, pētnieki var panākt, ka modelis, visticamāk, ievēros drošas instrukcijas, mazāk sniegs bīstamu saturu vai precīzāk reaģēs uz noteiktu domēnu — tas viss, nemainot sākotnējos svarus, bet tikai modulējot aktivācijas.

Ģeotelpiskā mehāniskā interpretējamība

Viens īpaši interesants pielietojums ir ģeotelpiskā mehāniskā interpretējamība, kas mēģina saprast, kā LLMs iekšēji attēlo ģeogrāfisko informāciju.Ģeogrāfijā jau tiek veikts arvien vairāk darbu, lai novērtētu, vai modeļi "zina", kur atrodas vietas, vai tie var veikt telpisko spriešanu vai atbildēt uz jautājumiem par atrašanās vietu.

Joprojām bija slikti izprasts, kā šīs spējas parādās modelī.Kā iekšējā konceptuālā telpa organizē pilsētu, valstu, reģionu, upju vai apskates objektu nosaukumus? Kāda veida slēpta telpiskā struktūra parādās ar vietvārdiem saistītajos vektoros?

Jaunākie pētījumi ir ierosinājuši jaunu metodoloģisku ietvaru: klasisko telpiskās analīzes metožu izmantošanu kā reversās inženierijas rīkus.Vispirms lielam skaitam vietvārdu tiek iegūti iekšējie vektori (vai pazīmes, kas iegūtas ar reti izmantotiem autoenkoderiem). Pēc tam telpiskā autokorelācija un citi rādītāji tiek izmantoti, lai pārbaudītu, vai konkrētām pazīmēm ir konsekventi ģeogrāfiski modeļi.

Rezultāti liecina, ka noteiktas ar vietvārdiem saistītas iezīmes uzrāda spēcīgu telpisko struktūru.Citiem vārdiem sakot, ģeogrāfiski tuviem punktiem parasti ir līdzīgas aktivācijas, kas ļauj šos resursus interpretēt ģeotelpiski: piemēram, kā reģionus, klimatiskās zonas, piekrastes tuvumu, urbanizāciju vai citus latentus modeļus.

Šāda veida analīze palīdz izprast, "kā modelis domā par ģeogrāfisko informāciju". (cenšoties izvairīties no antropomorfisma). Tā vietā, lai vienkārši zinātu, ka modelis pareizi atbild uz jautājumiem par kartēm, mēs varam redzēt, ka vektoru telpā ir strukturēti klasteri, kas atspoguļo reālas ģeogrāfiskās attiecības.

Saistītie:  Kāds ir pašreizējais tehnikas līmenis?

Saistība ar filozofiju, izziņu un apziņu.

Ir grūti aplūkot šīs ļoti dimensionālās konceptuālās telpas un nesaskatīt paralēles ar filozofiskām diskusijām par prātu, nozīmi un apziņu.Gadu desmitiem tādi filozofi kā Pēteris Gērdenforss ir runājuši par "konceptuālajām telpām" kā veidu, kā modelēt mentālos jēdzienus, izmantojot nepārtrauktas dimensijas, kas fiksē līdzību.

Mainījies ir tas, ka ar mūsdienu neironu tīkliem kaut kas ļoti līdzīgs vairs nav tikai filozofiska metafora un ir kļuvis par konkrētu mehānismu ražošanas sistēmās.Mūsdienās tiesību zinātnēs (LLM) mēs varam norādīt uz vektoriem, virzieniem un attālumiem un parādīt, ka tie atbilst nozīmes attiecībām, tulkojumiem starp valodām, abstrakcijām un pat smalkiem uzvedības modeļiem.

Daži to uzskata par pavedienu tam, kā cilvēka smadzenes varētu attēlot jēdzienus.Ņemot vērā, ka neirozinātnē pastāv spēcīgs uzskats, kas smadzenes raksturo kā paredzēšanas mašīnu, kas pastāvīgi cenšas paredzēt, kas notiks tālāk, pamatojoties uz maņu signāliem un uzkrāto pieredzi, dažās debatēs tas tiek pretstatīts stimula-atbildes teorijakas piedāvā citu perspektīvu par to, kā uzvedība un reprezentācija var būt saistītas.

Ja mēs visu laiku prognozējam pasauli, šķiet saprātīgi iedomāties, ka nepārtrauktā apstrādē tiek izmantota kaut kāda vektoru attēlošana vai tās ekvivalents.Ne jau tā ir, ka noteiktā smadzeņu punktā pastāvētu "fizisks vektors", bet gan dinamisks aktivitātes modelis, kas funkcionālā ziņā uzvedas kā stāvoklis konceptuālā telpā.

Daži autori norāda, ka tas varētu būt saistīts ar kvālijām un subjektīvo pieredzi.Kad redzat sarkano krāsu, jūs ne tikai saskaraties ar gaismas viļņa garumu; jūsu prātā ir arī "sarkanās krāsas ideja", kas saistīta ar atmiņām, emocijām un kultūras kontekstu. Šī reprezentācija jums ir unikāla, lai gan tai ir dažas kopīgas struktūras ar citiem cilvēkiem.

Kāda loma visā šajā ir interpretējamībai?

Mehāniskā interpretējamība neparedz pierādīt, ka mākslīgais intelekts ir apzinīgs vai jūtīgs.Lielākā daļa nopietnu pētījumu skaidri parāda, ka uzmanības centrā ir tehniskas lietas: skaitļošanas mehānismu izpratne, lai uzlabotu drošību, uzticamību, kļūmju diagnostiku, robustumu un uzraudzību.

Tomēr, parādot, kā sarežģīti jēdzieni var rasties no vektoriem un relacionālajām attiecībām daudzdimensionālā telpāŠī joma nodrošina pamatu teorijām par mentālo attēlojumu, nozīmi un pat apziņu. Ja modelis var pietiekami bagātīgi attēlot "sarkano" krāsu, lai ar šo jēdzienu darbotos dažādos kontekstos, tas to nepadara par apzinātu, bet gan liek mums precizēt, ko tieši mēs uzskatām par būtisku subjektīvas pieredzes rašanās procesā.

No praktiskā viedokļa mehāniskās interpretējamības lielākais solījums ir sniegt mums instrumentus, lai redzētu to, kas pašlaik nav redzams.Kuras modeļa daļas ir iesaistītas, kad tas halucinē, kad tas seko bīstamām instrukcijām, kad tas demonstrē aizspriedumus vai kad šķiet, ka tas "plāno" maldinošu reakciju?

Ar šāda veida iekšējo karti kļūst iespējams uzraudzīt modeļus reāllaikā, izstrādāt smalkākus kontroles mehānismus un dažos gadījumos tieši rediģēt iekšējos resursus, lai mainītu uzvedību.Tas viss ir ļoti svarīgi scenārijā, kurā tiesību zinātņu maģistrantūras studenti un citas mākslīgā intelekta sistēmas tiek ieviestas jutīgās jomās, sākot no finansēm līdz veselības aprūpei, drošībai un sabiedriskajai politikai.

Galu galā mehāniskās interpretējamības izpratne nozīmē izpratni par to, kā mākslīgā intelekta modeļi konstruē un izmanto savu iekšējo "pasaules modeli".Neatkarīgi no tā, vai runa ir par ikdienas jēdzienu izpratni, sarežģītas ģeogrāfiskas informācijas apstrādi vai šķietami vienkāršu jautājumu atbildēšanu sarunā, jo vairāk mēs spējam izgaismot šos mehānismus, jo mazāka iespēja, ka mūs pārsteigs dīvaina uzvedība no sistēmām, kas, neskatoties uz savu jaudu, tomēr ir matemātikas, datu un apmācības produkti, nevis kādas noslēpumainas apziņas formas.

saistīto rakstu:
Konstruktīvisma izcelsme, vēsturiskais konteksts, teorija un autori