- Pinag-aaralan ng mekanistikong interpretabilidad ang mga timbang, activation, at internal circuit upang ipaliwanag kung paano isinasagawa ng mga neural network at LLM ang kanilang mga kalkulasyon.
- Inaayos ng mga modelo ang mga kahulugan sa mga espasyong konseptwal na may mataas na dimensyon, kung saan ang mga konsepto ay kinakatawan bilang mga linyar na direksyon sa mga vector.
- Ang mga kagamitang tulad ng mga tampok na "microscope" at sparse autoencoder ay nagbibigay-daan sa iyong kunin, suriin, at manipulahin pa ang mga panloob na katangian ng mga modelo.
- Ang mga aplikasyon tulad ng geospatial interpretability ay nagpapakita kung paano binubuo ng mga LLM ang impormasyong heograpikal, na naglalapit sa AI sa mga debate tungkol sa kognisyon at seguridad.
Ang mekanistikong interpretabilidad ay nagiging isa sa mga pinakakapana-panabik at mahahalagang linya ng pananaliksik sa loob ng modernong AI.Ito ay lalong mahalaga dahil ang mga malalalim na neural network at Large-Scale Language Models (LLM) ay nagsisimulang makaimpluwensya sa mga desisyon sa halos bawat larangan. Sa halip na tingnan lamang ang pangwakas na pagganap ng isang modelo, ang pamamaraang ito ay nagtatanong: ano nga ba ang eksaktong nangyayari sa loob, sa mga timbang at pag-activate, kapag ang AI ay gumagawa ng isang hula, nagsusulat ng isang teksto, o lumulutas ng isang kumplikadong problema?
Ang terminong "black box" ay mas mahalaga ngayon kaysa ngayon.Daan-daang milyong tao ang gumagamit ng mga chatbot araw-araw, ngunit kahit ang mga pangkat na bumubuo ng mga sistemang ito ay hindi lubos na nauunawaan kung paano sila nakakarating sa ilang mga sagot, kung bakit nila "ginagaya" ang mga katotohanan, o sa anong mga sitwasyon sila maaaring kumilos nang mapanlinlang. Ang mekanismo ng interpretasyon ay lumilitaw nang tumpak upang buksan ang itim na kahon na ito, imapa ang mga panloob na mekanismo nito, at ikonekta ang mga neuron, mapagkukunan, at circuit sa mga konseptong mauunawaan natin.
Ano nga ba ang mekanistikong interpretabilidad?
Ang mekanistikong interpretabilidad ay ang sistematikong pag-aaral ng panloob na istruktura ng mga modelo ng AI, na nakatuon sa mga timbang, mga pag-activate, at mga intermediate na "kalkulasyon".upang maunawaan kung paano nila ginagampanan ang kanilang mga gawain. Sa halip na ituring ang neural network bilang isang opaque block na nagbabago ng input tungo sa output, tinatangka ng bahaging ito na hatiin ang modelo sa mas maliliit na bahagi—mga neuron, attention head, mga layer, mga linear na tampok—at iugnay ang bawat bahagi sa isang naoobserbahang pag-uugali.
Ang pangunahing layunin ay hindi lamang ang "ipaliwanag mamaya" ang isang nakahiwalay na desisyon, kundi ang bumuo ng isang detalyadong mapa ng panloob na komputasyon ng modelo.Kabilang dito ang pagtukoy kung aling mga neuron o kombinasyon ng mga neuron ang kumakatawan sa ilang partikular na padron (tulad ng mga pangalang pantangi, istruktura ng kodigo, tono ng emosyon, mga malisyosong tagubilin), kung paano pinagsama ang mga representasyong ito sa iba't ibang layer, at kung paano nagreresulta ang lahat ng ito sa isang partikular na output.
Ang pananaw na ito ay mabilis na lumalago sa komunidad ng mga siyentipiko.Dahil sa mga nakalaang workshop (tulad ng unang pangunahing workshop sa mekanistikong interpretability sa mga pangunahing kumperensya sa machine learning), dose-dosenang mga startup na nakatuon sa paksa, at lumalaking bilang ng mga analytical tool, ang dami ng mga papel na isinumite sa mga espesyalisadong workshop ay madaling lumampas sa isang daan bawat edisyon, na nagpapakita na ito ay tumigil na sa pagiging isang niche at naging isang pinagsama-samang larangan na may ganap na paglawak.
Ang malaking hamon ay ang pagbabawas ng agwat sa pagitan ng kahanga-hangang pagganap ng mga modelo at ng ating pag-unawa sa mga ito.Hangga't patuloy nating tinatrato ang mga LLM at neural network bilang mga misteryong pang-estadistika, magiging mas mahirap hulaan ang mga edge behavior, tukuyin ang mga sopistikadong kahinaan, tuklasin ang manipulasyon, at i-deploy ang mga sistemang ito nang maaasahan sa mga kritikal na sitwasyon.

Mga Konseptwal na Espasyo at ang Hipotesis ng Linear na Representasyon
Isa sa mga pinakamalakas na pananaw para sa pag-unawa sa mekanistikong interpretability ay ang ideya na ang mga neural network ay bumubuo ng mga high-dimensional na "conceptual spaces."Sa halip na isipin ang mga kahulugan bilang mga kahulugan sa isang diksyunaryo, maaari natin silang makita bilang mga punto sa isang malaking espasyong vector, na ipinahihiwatig sa network, na nabuo ng mga timbang at mga pag-activate sa mga layer.
Ang espasyong ito ay hindi pisikal; ito ay isang epekto lamang ng kung paano pinoproseso ng network ang mga signal.Ang bawat input (mga konseptong tekstwal tulad ng isang salita, isang pixel, isang tunog, isang pangalan ng lugar, isang snippet ng code) ay inimapa sa isang vector sa isang multidimensional na espasyo. Kinukuha ng vector na ito ang lahat ng "itinuring na may kaugnayan" ng modelo tungkol sa input na iyon, batay sa pagsasanay nito, at maaaring mag-encode ng mga semantikong nuances, estilo, konteksto, layunin, at marami pang iba.
Ang tinatawag na Linear Representation Hypothesis ay nagsasaad na marami sa mga panloob na konseptong ito ay maaaring ituring na mga linear na direksyon sa espasyong ito.Sa madaling salita, may isang direksyon na katumbas ng "papuri," isa pa sa "error sa pag-coding," isa pa sa "digital backdoor," at iba pa. Ang mas kumplikadong mga konsepto ay maaaring mabuo sa pamamagitan ng pagsasama-sama ng ilan sa mga pangunahing direksyong ito.
Nangangahulugan ito na ang anumang uri ng impormasyon — wika, paningin, audio, paggalaw — ay maaaring katawanin bilang mga vector sa parehong konseptwal na espasyong ito.Kapag pinoproseso ng isang LLM ang isang pangungusap, halimbawa, ito ay karaniwang sumusubaybay sa isang landas sa espasyong iyon, ina-update ang context vector sa bawat token upang makuha ang naipon na kahulugan hanggang sa puntong iyon.
Ipinapaliwanag din ng pananaw na ito kung bakit posibleng "mag-navigate" sa pagitan ng mga konsepto, pagsasama-sama ng mga ito o pagbabawas ng mga ito.Sa pamamagitan ng paglipat ng vector mula sa isang punto patungo sa isa pa sa isang partikular na direksyon, maaari tayong lumipat mula sa "pusa" patungo sa "matabang pusa," "matalinong pusa," "tamad na pusa"; o kahit na paglipat sa pagitan ng mga wika, pinapanatili ang parehong pinagbabatayang konsepto habang nagbabago ang ibabaw (ang salita).
Mga konseptong binibigyang kahulugan ng mga pagkakaiba: walang umiiral nang nag-iisa.
Isang kamangha-manghang aspeto ng modelong ito ay, para sa network, walang anumang bagay ang may ganap na kahulugan; ang lahat ay binibigyang kahulugan ng mga kaugnayan nito sa iba pang bahagi ng espasyo.Ang ideya ng "pusa" ay hindi nagmula sa isang panloob na kahulugan ng teksto, kundi mula sa posisyon nito kaugnay ng "elepante," "mesa," "aso," "pula," "mabalahibo," "magaan," "mabigat," at iba pa.
Kung alam mo na ang isang elepante ay mas malaki at mas mabigat kaysa sa pusa, hindi gaanong mabalahibo, na may ibang tekstura, at ang isang mesa ay mas makintab kaysa sa pareho, hindi mabalahibo, mas malaki kaysa sa pusa at mas maliit kaysa sa elepante.Pagkatapos ay nagsisimulang lumitaw ang isang istruktura: "laki," "bigat," "tekstura," "buhok," "kintab." Ang mga dimensyong ito ay hindi kailangang direktang tumutugma sa mga ginagamit natin sa sentido komun, ngunit gumagana ang mga ito bilang mga ehe na nag-oorganisa ng mga konsepto sa paraang kapaki-pakinabang para sa modelo.
Habang napupuno ang espasyo ng mga konsepto, pinipino ng mga cross-relationship na ito ang parehong mga konsepto mismo at ang "mga nakatagong dimensyon."Sa praktikal na mga termino, habang mas natututo at inaayos ng modelo ang mga bigat nito, mas nagiging mayaman ang mga panloob na representasyong ito, na nagbibigay-daan para sa mas banayad at naaangkop sa kontekstong mga hula.
Mahalagang tandaan na ang "laki," "bigat," o "mabalahibo" ay mga maginhawang metapora.Sa katotohanan, ang mga dimensyong ginagamit ng AI ay kayang makuha ang mga lubhang masalimuot na padron na hindi akma sa mga simpleng kategorya para sa mga tao. Maaari itong maging mga hindi-mahalagang kombinasyon ng sintaktika, semantika, biswal, espasyo, estilistiko, at iba pang aspeto.
Sa isang diwa, ang espasyong vector na ito ay bumubuo ng isang panloob na "modelo ng mundo".Hindi lamang ito isang abstraktong konsepto: ito ay isang bagay na konkreto na nangyayari ngayon sa mga neural network at LLM. Kapag sinabi nating "naiintindihan" ng isang modelo ang isang bagay, ang talagang nakikita natin ay ang resulta ng prosesong iyon ng pagpoposisyon at pag-uugnay ng mga vector sa implicit conceptual space na iyon.
Mula sa mikroskopya ng mapagkukunan hanggang sa malalaking kumpanya ng AI
Sa mga nakaraang taon, ang mekanistikong interpretabilidad ay sumulong nang malaki salamat sa mga bagong kagamitan na gumagana, sa metaporikal na paraan, bilang mga mikroskopyo para sa mga modelo ng wika.Sa halip na obserbahan lamang ang mga input at output, sinimulan ng mga mananaliksik na direktang siyasatin ang mga panloob na activation at mga partikular na rehiyon ng vector space kung saan matatagpuan ang ilang mga konsepto.
Ang mga kompanyang tulad ng Anthropic, OpenAI, Google DeepMind, at mga proyektong tulad ng Neuronpedia ang nangunguna sa pagsisikap na ito.Halimbawa, inanunsyo ng Anthropic ang isang pamamaraan na tinawag na "mikroskopyo" upang tumingin sa loob ng modelong Claude nito at tukuyin ang mga panloob na katangian na tumutugma sa mga makikilalang konsepto, tulad ni Michael Jordan, ng Golden Gate Bridge, o kahit na mga abstraktong ideya tulad ng "pambobola" at "digital backdoors."
Kasunod nito, ang pananaliksik ay sumulong sa pagsubaybay sa buong kadena ng mga mapagkukunan.Ipinapakita nito hindi lamang na ang isang neuron o vector ay nauugnay sa isang konsepto, kundi pati na rin kung paano ang konseptong iyon ay pinapagana, binabago, at pinagsama sa iba't ibang mga layer, mula sa unang utos hanggang sa pangwakas na tugon. Nagbibigay-daan ito sa atin, halimbawa, na maunawaan kung aling mga bahagi ng modelo ang nakikilahok sa isang partikular na mapanlinlang na pag-uugali o halusinasyon.
Sinimulan na ng mga pangkat mula sa OpenAI at Google DeepMind ang paggamit ng mga katulad na pamamaraan upang siyasatin ang hindi inaasahang pag-uugali.Kabilang dito ang mga sitwasyon kung saan tila sinusubukan ng mga modelo na linlangin ang mga gumagamit sa mga kontroladong pagsubok. Sa pamamagitan ng pagkonekta ng mga panloob na mapagkukunan sa mga pattern ng pag-uugali na ito, nagiging posible na subaybayan at, sa ilang mga kaso, baguhin ang modelo upang mabawasan ang mga panganib.
Ang isa pang magandang paraan ay ang tinatawag na "chain-of-thought monitoring."Sa mga modelo ng "pangangatwiran," na bumubuo ng mga tahasang hakbang sa pagitan (tulad ng mga pagbibigay-katwiran o bahagyang kalkulasyon), sinusuri ng mga mananaliksik ang "panloob na monologo" na ito upang matukoy ang mga hindi kanais-nais na estratehiya—halimbawa, isang modelo na nakakahanap ng paraan upang "mandaya" sa isang pagsusulit sa programming gamit ang kaalaman sa pagsasanay na dapat harangan.
Magkakapatong-patong, kalat-kalat na mga autoencoder, at mga tampok na monosemantiko
Isa sa mga pangunahing balakid sa mekanistikong interpretasyon ay ang tinatawag na superposition hypothesis.Sa malalaking neural network, ang isang neuron o dimensyon ay halos hindi kumakatawan sa isang "malinis" na konsepto; sa halip, maraming konsepto ang magkakasamang nakapreserba sa ilang dimensyon, na nagpapatong-patong na parang maraming imaheng naka-project sa iisang patag.
Ang pagsasanib na ito ay nagpapahirap na ituro ang isang neuron at sabihing, "ito ay konsepto X lamang."Ang mga tila walang kaugnayang pag-uugali ay maaaring magpagana ng parehong mga panloob na bahagi, na nakakalito sa pagsusuri. Upang matugunan ito, isang makapangyarihang kagamitan ang lumitaw: ang mga sparse autoencoder, na inilapat sa mga panloob na pagpapagana ng mga modelo.
Ang mga sparse autoencoder ay mga auxiliary network na sinanay upang i-reformat ang mga magulong activation na ito sa isang mas malinis na hanay ng mga feature.Ang ideya ay i-compress at pagkatapos ay buuin muli ang mga activation, na hinihikayat ang auxiliary model na gumamit ng kaunting resources sa isang pagkakataon (sparseness). Ang resulta ay isang hanay ng mga "features" na mas malapit sa monosemantic representations: ang bawat resource ay may posibilidad na tumutugma sa isang mas tiyak at madaling maunawaang pattern.
Ipinapakita ng kamakailang pananaliksik na sa pamamagitan ng paglalapat ng mga sparse autoencoder sa mga LLM sa produksyon, posibleng makuha ang mga tampok na nakahanay sa mga konsepto ng tao....kabilang ang sa maraming wika, pati na rin ang mga abstraktong nosyon tulad ng "error sa pag-coding," "sapilitang papuri," "digital na kahinaan," at iba pa. Pinatitibay nito ang Linear Representation Hypothesis: marami sa mga konseptong ito ang aktwal na kumikilos bilang makatwirang mapaghihiwalay na mga direksyon sa vector space.
Ang susunod na hakbang ay manipulahin ang mga mapagkukunang ito upang makita kung paano nagbabago ang kilos ng modelo.Sa pamamagitan ng pagpapalakas o pagpigil sa ilang partikular na panloob na vector, maaaring gawing mas malamang ng mga mananaliksik na sundin ng isang modelo ang mga ligtas na tagubilin, mas malamang na hindi magbigay ng mapanganib na nilalaman, o mas tumpak sa pagtugon tungkol sa isang partikular na domain—lahat nang hindi binabago ang orihinal na mga timbang, sa pamamagitan lamang ng pag-modulate sa mga activation.
Interpretasyon ng mekanismong heospatial
Ang isang partikular na kawili-wiling aplikasyon ay ang geospatial mechanistic interpretability, na nagtatangkang maunawaan kung paano kinakatawan ng mga LLM ang impormasyong heograpikal sa loob.Sa heograpiya, dumarami na ang mga gawaing sinusuri kung "alam" ba ng mga modelo kung saan matatagpuan ang mga lugar, kung kaya ba nilang magsagawa ng spatial reasoning, o sagutin ang mga tanong tungkol sa lokasyon.
Ang hindi pa rin gaanong nauunawaan ay kung paano lumilitaw ang mga kakayahang ito sa loob ng modelo.Paano inaayos ng panloob na konseptwal na espasyo ang mga pangalan ng mga lungsod, bansa, rehiyon, ilog, o mga puntong interesante? Anong uri ng nakatagong istrukturang pang-espasyo ang lumilitaw sa mga vector na nauugnay sa mga pangalan ng lugar?
Ang kamakailang pananaliksik ay nagpanukala ng isang bagong balangkas ng metodolohiya: ang paggamit ng mga klasikong pamamaraan ng pagsusuring spatial bilang mga kagamitan sa reverse engineering.Una, ang mga internal vector (o mga tampok na hinango ng mga sparse autoencoder) ay kinukuha para sa isang malaking bilang ng mga pangalan ng lugar. Pagkatapos, ang spatial autocorrelation at iba pang mga sukatan ay ginagamit upang suriin kung ang mga partikular na tampok ay nagpapakita ng mga pare-parehong heograpikong pattern.
Ipinapakita ng mga resulta na ang ilang partikular na katangiang nauugnay sa mga pangalan ng lugar ay nagpapakita ng matibay na istrukturang pang-espasyo.Sa madaling salita, ang mga puntong heograpikal na magkakalapit ay may posibilidad na magbahagi ng magkakatulad na mga aktibidad, na nagpapahintulot sa mga mapagkukunang ito na bigyang-kahulugan sa mga terminong geospatial: halimbawa, bilang mga rehiyon, mga sonang klimatiko, kalapitan sa baybayin, urbanisasyon, o iba pang mga nakatagong padron.
Ang ganitong uri ng pagsusuri ay nakakatulong upang maunawaan "kung paano iniisip ng modelo ang impormasyong heograpikal". (nag-iingat upang maiwasan ang antropomorpismo). Sa halip na malaman lamang na tama ang sagot ng modelo sa mga tanong tungkol sa mga mapa, makikita natin na may mga nakabalangkas na kumpol sa espasyo ng vector na sumasalamin sa mga totoong ugnayang heograpikal.
Kaugnayan sa pilosopiya, kognisyon, at kamalayan.
Mahirap tingnan ang mga espasyong konseptwal na may mataas na dimensyon at hindi makita ang mga pagkakatulad sa mga talakayang pilosopikal tungkol sa isip, kahulugan, at kamalayan.Sa loob ng mga dekada, binanggit ng mga pilosopo tulad ni Peter Gärdenfors ang "mga konseptwal na espasyo" bilang isang paraan ng pagmomodelo ng mga konseptong pangkaisipan sa pamamagitan ng mga tuloy-tuloy na dimensyon na kumukuha ng pagkakatulad.
Ang nagbago ay, sa mga modernong neural network, ang isang bagay na halos kapareho ay tumigil na sa pagiging isang pilosopikal na metapora lamang at naging isang konkretong mekanismo sa mga sistema ng produksyon.Ngayon, maaari nating ituro ang mga vector, direksyon, at distansya sa isang LLM at ipakita na tumutugma ang mga ito sa mga ugnayan ng kahulugan, pagsasalin sa pagitan ng mga wika, mga abstraksyon, at maging ang mga banayad na pattern ng pag-uugali.
Nakikita ito ng ilan bilang isang pahiwatig kung paano maaaring kumatawan ang utak ng tao sa mga konsepto.Dahil mayroong matibay na pananaw sa neuroscience na naglalarawan sa utak bilang isang makinang panghula, na patuloy na sinusubukang mahulaan ang susunod na mangyayari batay sa mga senyales ng pandama at naipon na karanasan. Sa ilang mga debate, ito ay inihahambing sa teoryang pampasigla-tugonna nag-aalok ng isa pang pananaw kung paano maaaring magkaugnay ang pag-uugali at representasyon.
Kung palagi nating hinuhulaan ang mundo, tila makatwirang isipin na ang isang uri ng representasyon ng vector—o katumbas nito—ay patuloy na pinoproseso.Hindi naman sa mayroong "pisikal na vector" sa isang partikular na punto sa utak, kundi sa halip ay isang dynamic na pattern ng aktibidad na, sa mga functional na termino, ay kumikilos na parang isang estado sa isang konseptwal na espasyo.
Iminumungkahi ng ilang may-akda na maaaring may kaugnayan ito sa kalidad at subhetibong karanasan.Kapag nakita mo ang kulay pula, hindi mo lamang nakikitungo sa haba ng daluyong ng liwanag; nariyan din ang "ideya ng pula" sa iyong isipan, na nakaugnay sa mga alaala, emosyon, at kontekstong kultural. Ang representasyong ito ay natatangi sa iyo, bagama't mayroon itong ilang karaniwang istruktura na katulad ng ibang tao.
Ano ang papel na ginagampanan ng kakayahang bigyang-kahulugan sa lahat ng ito?
Ang mekanismong interpretabilidad ay hindi naglalayong patunayan na ang AI ay may malay o may pakiramdam.Nililinaw ng karamihan sa mga seryosong pananaliksik na ang pokus ay teknikal: pag-unawa sa mga mekanismo ng pagkalkula upang mapabuti ang kaligtasan, pagiging maaasahan, mga diagnostic ng depekto, katatagan, at pangangasiwa.
Gayunpaman, sa pamamagitan ng pagpapakita kung paano maaaring lumitaw ang mga kumplikadong konsepto mula sa mga vector at relasyon sa isang high-dimensional na espasyoAng lugar na ito ay nagbibigay ng pundasyon para sa mga teorya tungkol sa representasyong pangkaisipan, kahulugan, at maging sa kamalayan. Kung ang isang modelo ay kayang kumatawan sa "pula" nang sapat na mayaman upang magamit ang konseptong ito sa iba't ibang konteksto, hindi nito ginagawa itong may kamalayan, ngunit pinipilit tayo nitong pinuhin kung ano talaga ang itinuturing nating mahalaga para lumitaw ang isang subhetibong karanasan.
Mula sa praktikal na pananaw, ang dakilang pangako ng mekanistikong interpretasyon ay ang pagbibigay sa atin ng mga kagamitan upang makita kung ano ang kasalukuyang hindi nakikita.Aling mga bahagi ng modelo ang kasangkot kapag ito ay naghahalunina, kapag ito ay sumusunod sa mga mapanganib na tagubilin, kapag ito ay nagpapakita ng pagkiling, o kapag ito ay tila "nagpaplano" ng isang mapanlinlang na tugon?
Gamit ang ganitong uri ng panloob na mapa, nagiging posible na subaybayan ang mga modelo sa totoong oras, magdisenyo ng mas pinong mga mekanismo ng kontrol, at, sa ilang mga kaso, direktang i-edit ang mga panloob na mapagkukunan upang baguhin ang mga pag-uugali.Mahalaga ang lahat ng ito sa isang senaryo kung saan ang mga LLM at iba pang mga sistema ng AI ay inilalapat sa mga sensitibong larangan, mula sa pananalapi hanggang sa pangangalagang pangkalusugan, seguridad, at patakaran sa publiko.
Sa huli, ang pag-unawa sa mekanistikong interpretability ay nangangahulugan ng pag-unawa kung paano binubuo at ginagamit ng mga modelo ng AI ang kanilang panloob na "modelo ng mundo."Nagna-navigate man tayo sa mga pang-araw-araw na konsepto, humaharap sa masalimuot na impormasyong heograpikal, o sumasagot sa mga tila simpleng tanong sa isang pag-uusap, habang mas napapaliwanag natin ang mga mekanismong ito, mas maliit ang posibilidad na mabigla tayo sa mga kakaibang pag-uugali mula sa mga sistemang, sa kabila ng pagiging makapangyarihan, ay mga produkto pa rin ng matematika, datos, at pagsasanay—at hindi ng ilang mahiwagang anyo ng kamalayan.