- Mechanistinis interpretuojamumas tiria svorius, aktyvacijas ir vidines grandines, kad paaiškintų, kaip neuroniniai tinklai ir LLM atlieka savo skaičiavimus.
- Modeliai susistemina reikšmes į daugiamačius konceptualius erdves, o sąvokos vaizduojamos kaip tiesinės kryptys vektoriuose.
- Tokios priemonės kaip elementų „mikroskopai“ ir reti automatiniai kodavimo įrenginiai leidžia išskirti, analizuoti ir net manipuliuoti modelių vidinėmis savybėmis.
- Tokios programos kaip geospatialinis interpretavimas rodo, kaip teisės magistro (LLM) specialistai struktūrizuoja geografinę informaciją, priartindami dirbtinį intelektą prie diskusijų apie pažinimą ir saugumą.

Mechanistinis interpretuojamumas tampa viena įdomiausių ir svarbiausių šiuolaikinio dirbtinio intelekto tyrimų krypčių.Tai ypač svarbu, nes gilieji neuroniniai tinklai ir didelio masto kalbos modeliai (LLM) pradeda daryti įtaką sprendimams praktiškai kiekvienoje srityje. Užuot vien tik nagrinėjęs modelio galutinį našumą, šis metodas klausia: kas tiksliai vyksta viduje, svoriuose ir aktyvacijose, kai dirbtinis intelektas pateikia prognozę, rašo tekstą ar sprendžia sudėtingą problemą?
Terminas „juodoji dėžė“ dar niekada nebuvo toks aktualus kaip dabar.Šimtai milijonų žmonių kasdien naudojasi pokalbių robotais, tačiau net ir šias sistemas kuriančios komandos iki galo nesupranta, kaip jos gauna tam tikrus atsakymus, kodėl jos „haliucinuoja“ faktus ar kokiose situacijose gali elgtis apgaulingai. Mechaninis interpretuojamumas atsiranda būtent tam, kad atvertų šią juodąją dėžę, nubraižytų jos vidinius mechanizmus ir sujungtų neuronus, išteklius bei grandines su mums suprantamomis sąvokomis.
Kas tiksliai yra mechaninis interpretuojamumas?
Mechanistinis interpretuojamumas yra sistemingas dirbtinio intelekto modelių vidinės struktūros tyrimas, daugiausia dėmesio skiriant svoriams, aktyvacijoms ir tarpiniams „skaičiavimams“.suprasti, kaip jie atlieka savo užduotis. Užuot traktavus neuroninį tinklą kaip neskaidrų bloką, kuris transformuoja įvestį į išvestį, ši sritis bando suskaidyti modelį į mažesnius komponentus – neuronus, dėmesio galvutes, sluoksnius, linijines ypatybes – ir susieti kiekvieną dalį su stebimu elgesiu.
Pagrindinis tikslas yra ne tik „vėliau paaiškinti“ atskirą sprendimą, bet ir sukurti išsamų modelio vidinių skaičiavimų žemėlapį.Tai apima identifikavimą, kurie neuronai arba neuronų deriniai vaizduoja tam tikrus modelius (pvz., tikrinius vardus, kodo struktūras, emocinius tonus, kenkėjiškas instrukcijas), kaip šie vaizdai yra derinami skirtinguose sluoksniuose ir kaip visa tai lemia konkretų rezultatą.
Ši perspektyva sparčiai plinta mokslo bendruomenėje.Rengiant specializuotus seminarus (pvz., pirmąjį didelį mechanistinio interpretuojamumo seminarą didelėse mašininio mokymosi konferencijose), dešimtis šiai temai skirtų startuolių ir vis didėjant analitinių įrankių skaičiui, specializuotiems seminarams pateikiamų straipsnių skaičius lengvai viršija šimtą viename leidime, o tai rodo, kad ši sritis nebėra niša ir tapo konsoliduota, visapusiškai besiplečiančia sritimi.
Didžiausias iššūkis – sumažinti atotrūkį tarp įspūdingo modelių veikimo ir mūsų supratimo apie juos.Kol ir toliau laikysime LLM ir neuroninius tinklus statistinėmis paslaptimis, bus daug sunkiau numatyti periferinį elgesį, nustatyti sudėtingus pažeidžiamumus, aptikti manipuliacijas ir patikimai diegti šias sistemas kritinėse situacijose.

Konceptualios erdvės ir tiesinio vaizdavimo hipotezė
Viena iš svarbiausių įžvalgų, padedančių suprasti mechanistinį interpretuojamumą, yra idėja, kad neuroniniai tinklai konstruoja daugiamačius „konceptualius erdves“.Užuot galvoję apie reikšmes kaip apie žodyno apibrėžimus, galime jas matyti kaip taškus didžiulėje vektorinėje erdvėje, numanomoje tinkle, suformuotoje iš svorių ir aktyvacijų skirtinguose sluoksniuose.
Ši erdvė nėra fizinė; tai šalutinis tinklo signalų apdorojimo būdo poveikis.Kiekviena įvestis (tekstinė sąvoka, pvz., žodis, pikselis, garsas, vietovės pavadinimas, kodo fragmentas) susiejama su vektoriumi daugiamatėje erdvėje. Šis vektorius fiksuoja viską, ką modelis, remdamasis savo mokymu, „laikė svarbiu“ apie tą įvestį, ir gali koduoti semantinius niuansus, stilių, kontekstą, ketinimą ir daug daugiau.
Vadinamoji tiesinio vaizdavimo hipotezė teigia, kad daugelį šių vidinių sąvokų šioje erdvėje galima laikyti tiesinėmis kryptimis.Kitaip tariant, yra viena kryptis, kuri atitinka „pagyrimą“, kita – „kodavimo klaidą“, dar kita – „skaitmenines užpakalines duris“ ir taip toliau. Sudėtingesnes sąvokas galima suformuoti derinant kelias iš šių pagrindinių krypčių.
Tai reiškia, kad bet kokio tipo informacija – kalba, vaizdas, garsas, judesys – gali būti pavaizduota kaip vektoriai toje pačioje konceptualioje erdvėje.Pavyzdžiui, kai LLM apdoroja sakinį, jis iš esmės seka kelią toje erdvėje, atnaujindamas konteksto vektorių su kiekvienu žetonu, kad užfiksuotų iki to taško sukauptą reikšmę.
Ši perspektyva taip pat paaiškina, kodėl įmanoma „naviguoti“ tarp sąvokų, jas derinant arba atimant.Judinant vektorių iš vieno taško į kitą tam tikra kryptimi, galime pereiti nuo „katės“ prie „riebios katės“, „protingos katės“, „tingios katės“ arba netgi pereiti nuo vienos kalbos prie kitos, išlaikydami tą pačią pagrindinę sąvoką, o paviršius (žodis) keičiasi.
Skirtumais apibrėžiamos sąvokos: niekas neegzistuoja atskirai.
Įdomus šio modelio aspektas yra tas, kad tinklui niekas neturi absoliučios prasmės; viską apibrėžia jo santykiai su likusia erdve.„Katės“ idėja kyla ne iš vidinio teksto apibrėžimo, o iš jos pozicijos, palyginti su „drambliu“, „stalu“, „šunimi“, „raudona“, „plaukuota“, „lengva“, „sunkia“ ir pan.
Jei žinote, kad dramblys yra didesnis ir sunkesnis už katę, mažiau pūkuotas, kitokios tekstūros, o stalas yra blizgesnis už abu, ne pūkuotas, didesnis už katę ir mažesnis už dramblį.Tada pradeda ryškėti struktūra: „dydis“, „svoris“, „tekstūra“, „plaukai“, „blizgesys“. Šie matmenys nebūtinai turi tiesiogiai atitikti tuos, kuriuos vartojame sveiku protu, tačiau jie veikia kaip ašys, kurios organizuoja sąvokas taip, kad tai būtų naudinga modeliui.
Erdvei prisipildžius sąvokų, šie kryžminiai ryšiai tobulina tiek pačias sąvokas, tiek „latentinius matmenis“.Praktiškai, kuo daugiau modelis mokosi ir koreguoja savo svorius, tuo turtingesni tampa šie vidiniai atvaizdavimai, leidžiantys vis subtilesnes ir kontekstui tinkamesnes prognozes.
Svarbu prisiminti, kad „dydis“, „svoris“ arba „plaukuotas“ yra patogios metaforos.Iš tikrųjų dirbtinio intelekto naudojami matmenys gali užfiksuoti itin sudėtingus modelius, kurie netelpa į žmonėms paprastas kategorijas. Tai gali būti ne trivialūs sintaksės, semantikos, vizualumo, erdvės, stiliaus ir kitų aspektų deriniai.
Tam tikra prasme ši vektorinė erdvė sudaro vidinį „pasaulio modelį“.Tai ne tik abstrakti sąvoka: tai kažkas konkretaus, kas šiandien vyksta neuroniniuose tinkluose ir teisės magistro (LLM) sistemose. Kai sakome, kad modelis kažką „supranta“, tai, ką iš tikrųjų matome, yra vektorių pozicionavimo ir susiejimo toje numanomoje konceptualioje erdvėje rezultatas.
Nuo išteklių mikroskopijos iki didelių dirbtinio intelekto bendrovių
Pastaraisiais metais mechaninis interpretuojamumas žengė didelį žingsnį į priekį dėl naujų įrankių, kurie metaforiškai veikia kaip kalbos modelių mikroskopai.Užuot vien stebėję įvestis ir išvestis, tyrėjai pradėjo tiesiogiai tikrinti vidines aktyvacijas ir konkrečius vektoriaus erdvės regionus, kuriuose yra tam tikros sąvokos.
Šioms pastangoms vadovauja tokios įmonės kaip „Anthropic“, „OpenAI“, „Google DeepMind“ ir tokie projektai kaip „Neuronpedia“.Pavyzdžiui, „Anthropic“ paskelbė apie techniką, pavadintą „mikroskopu“, skirtą pažvelgti į savo Claude'o modelį ir nustatyti vidinius požymius, atitinkančius atpažįstamas sąvokas, tokias kaip Michaelas Jordanas, Auksinių vartų tiltas, ar net abstrakčias idėjas, tokias kaip „meilė“ ir „skaitmeninės užpakalinės durys“.
Vėliau tyrimai buvo perkelti į ištisų išteklių grandinių atsekimą.Tai rodo ne tik tai, kad neuronas arba vektorius yra susietas su koncepcija, bet ir kaip ta koncepcija yra aktyvuojama, transformuojama ir sujungiama skirtinguose sluoksniuose – nuo pradinės komandos iki galutinio atsakymo. Tai leidžia mums, pavyzdžiui, suprasti, kurios modelio dalys dalyvauja konkrečiame apgaulingame elgesyje arba haliucinacijoje.
„OpenAI“ ir „Google DeepMind“ komandos pradėjo naudoti panašius metodus netikėtam elgesiui tirti.Tai apima situacijas, kai modeliai, regis, bando apgauti vartotojus kontroliuojamuose testuose. Susiejus vidinius išteklius su šiais elgesio modeliais, tampa įmanoma stebėti ir kai kuriais atvejais modifikuoti modelį, siekiant sumažinti riziką.
Kitas perspektyvus metodas yra vadinamasis „minčių grandinės stebėjimas“.„Samprotavimo“ modeliuose, kurie generuoja aiškius tarpinius veiksmus (pvz., pagrindimus ar dalinius skaičiavimus), tyrėjai analizuoja šį „vidinį monologą“, kad aptiktų nepageidaujamas strategijas, pavyzdžiui, modelį, kuris randa būdą „sukčiauti“ programavimo teste, naudodamas mokymo žinias, kurios turėtų būti blokuojamos.
Persidengiantys, reti autoenkoderiai ir monosemantinės funkcijos
Viena iš pagrindinių kliūčių mechanistiniam interpretavimui yra vadinamoji superpozicijos hipotezė.Dideliuose neuroniniuose tinkluose vienas neuronas ar dimensija vargu ar reprezentuoja vieną „švarią“ sąvoką; vietoj to, kelios sąvokos egzistuoja kartu, suspaustos į keletą dimensijų, persidengdamos kaip keli vaizdai, projektuojami toje pačioje plokštumoje.
Dėl šio sutapimo sunku nurodyti neuroną ir pasakyti: „tai tik X sąvoka“.Iš pažiūros nesusiję elgsenos elementai gali aktyvuoti tuos pačius vidinius komponentus, o tai painioja analizę. Šiai problemai spręsti atsirado galingas įrankis: reti autoenkoderiai, taikomi modelių vidinėms aktyvacijoms.
Reti automatiniai kodavimo įrenginiai yra pagalbiniai tinklai, apmokyti performatuoti šias chaotiškas aktyvacijas į aiškesnį funkcijų rinkinį.Idėja yra suspausti ir vėliau rekonstruoti aktyvacijas, skatinant pagalbinį modelį vienu metu naudoti nedaug išteklių (retumas). Rezultatas yra „savybių“ rinkinys, artimesnis monosemantikiniams vaizdavimams: kiekvienas išteklius paprastai atitinka konkretesnį ir suprantamesnį modelį.
Naujausi tyrimai rodo, kad taikant retus autoenkoderius LLM gamyboje, galima išskirti su žmonių sąvokomis suderintas funkcijas....įskaitant keliomis kalbomis, taip pat abstrakčias sąvokas, tokias kaip „kodavimo klaida“, „priverstinis pagyrimas“, „skaitmeninis pažeidžiamumas“ ir pan. Tai sustiprina tiesinio vaizdavimo hipotezę: daugelis šių sąvokų iš tikrųjų elgiasi kaip pagrįstai atskiriamos kryptys vektorinėje erdvėje.
Kitas žingsnis – manipuliuoti šiais ištekliais, norint pamatyti, kaip keičiasi modelio elgesys.Stiprindami arba slopindami tam tikrus vidinius vektorius, tyrėjai gali padaryti modelį labiau tikėtiną saugių nurodymų laikymuisi, mažesnę tikimybę pateikti pavojingą turinį arba tiksliau reaguoti į tam tikrą sritį – visa tai nekeičiant pradinių svorių, tik moduliuojant aktyvacijas.
Geoprinio erdvinio mechanistinio interpretuojamumo
Vienas ypač įdomus taikymas yra geospatialinis mechaninis interpretuojamumas, kuriuo bandoma suprasti, kaip LLM vidine prasme reprezentuoja geografinę informaciją.Geografijoje jau atliekama vis daugiau darbų, kuriais vertinama, ar modeliai „žino“, kur yra vietos, ar jie gali atlikti erdvinį samprotavimą ar atsakyti į klausimus apie vietą.
Vis dar buvo menkai suprantama, kaip šie gebėjimai atsiranda modelyje.Kaip vidinė konceptuali erdvė organizuoja miestų, šalių, regionų, upių ar lankytinų vietų pavadinimus? Kokia paslėpta erdvinė struktūra atsiranda su vietovardžiais susijusiuose vektoriuose?
Naujausi tyrimai pasiūlė naują metodologinę sistemą: naudoti klasikinius erdvinės analizės metodus kaip atvirkštinės inžinerijos įrankius.Pirma, daugeliui vietovardžių gaunami vidiniai vektoriai (arba požymiai, gauti naudojant retus autoenkoderius). Tada erdvinė autokoreliacija ir kiti rodikliai naudojami siekiant patikrinti, ar konkretūs požymiai rodo nuoseklius geografinius modelius.
Rezultatai rodo, kad tam tikri su vietovardžiais susiję elementai pasižymi stipria erdvine struktūra.Kitaip tariant, geografiškai artimi taškai paprastai pasižymi panašiu aktyvavimu, todėl šiuos išteklius galima interpretuoti geospatialiniu požiūriu: pavyzdžiui, kaip regionus, klimato zonas, pakrančių artumą, urbanizaciją ar kitus latentinius modelius.
Šio tipo analizė padeda suprasti, „kaip modelis mąsto apie geografinę informaciją“. (stengiantis išvengti antropomorfizmo). Užuot tiesiog žinoję, kad modelis teisingai atsako į klausimus apie žemėlapius, galime matyti, kad vektorinėje erdvėje yra struktūrizuotų klasterių, kurie atspindi realius geografinius ryšius.
Ryšys su filosofija, pažinimu ir sąmone.
Sunku žvelgti į šias labai dimensines konceptualias erdves ir nematyti paralelių su filosofinėmis diskusijomis apie protą, prasmę ir sąmonę.Dešimtmečius tokie filosofai kaip Peteris Gärdenforsas kalbėjo apie „konceptualias erdves“ kaip apie psichinių sąvokų modeliavimo būdą per ištisinius matmenis, kurie fiksuoja panašumą.
Pasikeitė tai, kad šiuolaikiniuose neuroniniuose tinkluose kažkas labai panašaus nustojo būti vien filosofine metafora ir tapo konkrečiu mechanizmu gamybos sistemose.Šiandien teisės magistro (LLM) sistemoje galime nurodyti vektorius, kryptis ir atstumus ir parodyti, kad jie atitinka prasmės ryšius, vertimą tarp kalbų, abstrakcijas ir net subtilius elgesio modelius.
Kai kurie tai laiko užuomina, kaip žmogaus smegenys gali reprezentuoti sąvokas.Atsižvelgiant į tai, kad neuromoksle vyrauja tvirtas požiūris, apibūdinantis smegenis kaip prognozavimo mašiną, nuolat bandančią numatyti, kas bus toliau, remiantis jutiminiais signalais ir sukaupta patirtimi, kai kuriuose debatuose tai prieštarauja... stimulo-atsako teorijakuri siūlo kitą požiūrį į tai, kaip elgesys ir reprezentacija gali būti susiję.
Jei mes nuolat prognozuojame pasaulį, atrodo pagrįsta įsivaizduoti, kad tam tikras vektorinis vaizdavimas – arba jo atitikmuo – yra nuolat apdorojamas.Ne tai, kad konkrečiame smegenų taške yra „fizinis vektorius“, o veikiau dinamiškas veiklos modelis, kuris funkciniu požiūriu elgiasi kaip būsena konceptualioje erdvėje.
Kai kurie autoriai teigia, kad tai gali būti susiję su kvalia ir subjektyvia patirtimi.Kai matote raudoną spalvą, susiduriate ne tik su šviesos bangos ilgiu; jūsų galvoje taip pat yra „raudonos spalvos idėja“, susijusi su prisiminimais, emocijomis ir kultūriniu kontekstu. Šis vaizdavimas jums unikalus, nors jis turi tam tikrų bendrų struktūrų su kitais žmonėmis.
Kokį vaidmenį visame tame vaidina interpretuojamumas?
Mechanistinis interpretuojamumas nesiekia įrodyti, kad DI yra sąmoningas ar jausmingas.Dauguma rimtesnių tyrimų aiškiai rodo, kad dėmesys sutelkiamas į techninius dalykus: skaičiavimo mechanizmų supratimą, siekiant pagerinti saugą, patikimumą, gedimų diagnostiką, atsparumą ir priežiūrą.
Tačiau parodant, kaip sudėtingos sąvokos gali atsirasti iš vektorių ir ryšių daugiamatėje erdvėjeŠi sritis suteikia pagrindą teorijoms apie psichinę reprezentaciją, prasmę ir net sąmonę. Jei modelis gali pakankamai sodriai pavaizduoti „raudoną“ spalvą, kad galėtų operuoti šia koncepcija įvairiuose kontekstuose, tai nepadaro jos sąmoninga, bet verčia mus patikslinti, ką tiksliai laikome esmine, kad atsirastų subjektyvi patirtis.
Praktiniu požiūriu, didžiausias mechanistinio interpretuojamumo pažadas yra suteikti mums įrankius pamatyti tai, kas šiuo metu nematoma.Kurios modelio dalys yra įtrauktos, kai jis haliucina, kai vykdo pavojingus nurodymus, kai demonstruoja šališkumą arba kai atrodo, kad „planuoja“ apgaulingą atsaką?
Naudojant tokio tipo vidinį žemėlapį, tampa įmanoma stebėti modelius realiuoju laiku, kurti tikslesnius valdymo mechanizmus ir kai kuriais atvejais tiesiogiai redaguoti vidinius išteklius, siekiant pakeisti elgesį.Visa tai yra labai svarbu scenarijuje, kai teisės magistro studijos ir kitos dirbtinio intelekto sistemos yra diegiamos jautriose srityse – nuo finansų iki sveikatos priežiūros, saugumo ir viešosios politikos.
Galiausiai, norint suprasti mechanistinį interpretuojamumą, reikia suprasti, kaip dirbtinio intelekto modeliai kuria ir naudoja savo vidinį „pasaulio modelį“.Nesvarbu, ar naršome kasdienes sąvokas, dirbame su sudėtinga geografine informacija, ar atsakome į, regis, paprastus klausimus pokalbyje, kuo geriau galime atskleisti šiuos mechanizmus, tuo mažesnė tikimybė, kad mus nustebins keistas sistemų, kurios, nepaisant jų galingumo, vis tiek yra matematikos, duomenų ir mokymo, o ne kažkokios paslaptingos sąmonės formos, produktas, elgesys.