Interpretabilitat mecanicista: com la IA construeix i revela els seus models interns

Darrera actualització: 22 Janeiro, 2026
  • La interpretabilitat mecanística estudia pesos, activacions i circuits interns per explicar com les xarxes neuronals i els LLM realitzen els seus càlculs.
  • Els models organitzen els significats en espais conceptuals d'alta dimensió, amb conceptes representats com a direccions lineals en vectors.
  • Eines com ara els "microscopis" de característiques i els autocodificadors dispersos permeten extreure, analitzar i fins i tot manipular les característiques internes dels models.
  • Aplicacions com la interpretabilitat geoespacial mostren com els LLM estructuren la informació geogràfica, acostant la IA als debats sobre cognició i seguretat.

Interpretabilitat mecanística en IA

La interpretabilitat mecanística s'està convertint en una de les línies de recerca més emocionants i importants dins de la IA moderna.Això és especialment important, ja que les xarxes neuronals profundes i els models de llenguatge a gran escala (LLM) comencen a influir en les decisions en pràcticament tots els camps. En lloc de només mirar el rendiment final d'un model, aquest enfocament pregunta: què passa exactament a l'interior, en els pesos i les activacions, quan la IA fa una predicció, escriu un text o resol un problema complex?

El terme "caixa negra" mai ha estat més rellevant que ara.Centenars de milions de persones utilitzen chatbots diàriament, però ni tan sols els equips que desenvolupen aquests sistemes entenen del tot com arriben a certes respostes, per què "al·lucinen" fets o en quines situacions poden comportar-se de manera enganyosa. La interpretabilitat mecanicista sorgeix precisament per obrir aquesta caixa negra, mapejar els seus mecanismes interns i connectar neurones, recursos i circuits a conceptes que podem entendre.

Què és exactament la interpretabilitat mecanicista?

La interpretabilitat mecanística és l'estudi sistemàtic de l'estructura interna dels models d'IA, centrant-se en pesos, activacions i "càlculs" intermedis.per entendre com realitzen les seves tasques. En lloc de tractar la xarxa neuronal com un bloc opac que transforma l'entrada en sortida, aquesta àrea intenta descompondre el model en components més petits (neurones, capes d'atenció, capes, característiques lineals) i vincular cada part a un comportament observable.

L'objectiu central no és simplement "explicar més tard" una decisió aïllada, sinó construir un mapa detallat del càlcul intern del model.Això implica identificar quines neurones o combinacions de neurones representen certs patrons (com ara noms propis, estructures de codi, tons emocionals, instruccions malicioses), com es combinen aquestes representacions a través de capes i com tot això dóna com a resultat una sortida específica.

Aquesta perspectiva ha anat creixent ràpidament dins la comunitat científica.Amb tallers dedicats (com el primer gran taller sobre interpretabilitat mecanística en les principals conferències d'aprenentatge automàtic), desenes d'empreses emergents centrades en el tema i un nombre creixent d'eines analítiques, el volum de treballs presentats a tallers especialitzats supera fàcilment el centenar per edició, cosa que demostra que aquest ha deixat de ser un nínxol i s'ha convertit en un camp consolidat en plena expansió.

El gran repte és reduir la bretxa entre el rendiment impressionant dels models i la nostra comprensió d'ells.Mentre continuem tractant els LLM i les xarxes neuronals com a misteris estadístics, serà molt més difícil predir comportaments de vora, identificar vulnerabilitats sofisticades, detectar manipulacions i desplegar aquests sistemes de manera fiable en escenaris crítics.

Representacions internes en models de llenguatge

Espais conceptuals i la hipòtesi de la representació lineal

Una de les idees més importants per entendre la interpretabilitat mecanicista és la idea que les xarxes neuronals construeixen "espais conceptuals" d'alta dimensió.En lloc de pensar en els significats com a definicions en un diccionari, podem veure'ls com a punts en un espai vectorial enorme, implícits a la xarxa, formats pels pesos i les activacions a través de les capes.

Aquest espai no és físic; és un efecte secundari de com la xarxa processa els senyals.Cada entrada (conceptes textuals com ara una paraula, un píxel, un so, un nom de lloc, un fragment de codi) es mapeja a un vector en un espai multidimensional. Aquest vector captura tot allò que el model "ha considerat rellevant" sobre aquesta entrada, basant-se en el seu entrenament, i pot codificar matisos semàntics, estil, context, intenció i molt més.

L'anomenada hipòtesi de la representació lineal afirma que molts d'aquests conceptes interns es poden veure com a direccions lineals en aquest espai.En altres paraules, hi ha una direcció que correspon a "elogis", una altra a "error de codificació", una altra a "porta del darrere digital", etc. Es poden formar conceptes més complexos combinant diverses d'aquestes direccions bàsiques.

Relacionat:  Etnografia: definició, característiques, disseny, mètode

Això significa que qualsevol tipus d'informació —llenguatge, visió, àudio, moviment— es pot representar com a vectors en aquest mateix espai conceptual.Quan un LLM processa una frase, per exemple, bàsicament està traçant un camí en aquest espai, actualitzant el vector de context amb cada token per capturar el significat acumulat fins a aquell punt.

Aquesta perspectiva també explica per què és possible "navegar" entre conceptes, combinant-los o restant-los.En moure el vector d'un punt a un altre en una direcció específica, podem passar de "gat" a "gat gras", "gat intel·ligent", "gat mandrós"; o fins i tot fer la transició entre idiomes, mantenint el mateix concepte subjacent mentre la superfície (la paraula) canvia.

Conceptes definits per diferències: res existeix aïlladament.

Un aspecte fascinant d'aquest model és que, per a la xarxa, res té un significat absolut; tot es defineix per les seves relacions amb la resta de l'espai.La idea de "gat" no prové d'una definició textual interna, sinó de la seva posició en relació amb "elefant", "taula", "gos", "vermell", "pelut", "lleuger", "pesat", etc.

Si saps que un elefant és més gran i més pesat que un gat, menys pelut, amb una textura diferent, i que una taula és més brillant que tots dos, no és peluda, és més gran que un gat i més petita que un elefant.Aleshores comença a emergir una estructura: "mida", "pes", "textura", "cabell", "brillantor". Aquestes dimensions no necessiten correspondre directament a les que fem servir en sentit comú, però funcionen com a eixos que organitzen els conceptes d'una manera útil per al model.

A mesura que l'espai s'omple de conceptes, aquestes relacions creuades refinen tant els conceptes en si com les "dimensions latents".En termes pràctics, com més aprèn i ajusta el model els seus pesos, més riques es tornen aquestes representacions internes, permetent prediccions cada cop més subtils i contextualment apropiades.

És important recordar que "mida", "pes" o "pelut" són metàfores convenients.En realitat, les dimensions utilitzades per la IA poden capturar patrons extremadament complexos que no encaixen en categories simples per als humans. Poden ser combinacions no trivials d'aspectes sintàctics, semàntics, visuals, espacials, estilístics i altres.

En cert sentit, aquest espai vectorial constitueix un "model de món" intern.No és només un concepte abstracte: és quelcom concret que passa avui dia a les xarxes neuronals i els LLM. Quan diem que un model "entén" alguna cosa, el que realment estem veient és el resultat d'aquest procés de posicionament i relació de vectors en aquest espai conceptual implícit.

De la microscòpia de recursos a les grans empreses d'IA

En els darrers anys, la interpretabilitat mecanicista ha fet un salt endavant gràcies a noves eines que funcionen, metafòricament, com a microscopis per a models de llenguatge.En lloc de simplement observar les entrades i sortides, els investigadors van començar a inspeccionar directament les activacions internes i les regions específiques de l'espai vectorial on resideixen certs conceptes.

Empreses com Anthropic, OpenAI, Google DeepMind i projectes com Neuronpedia han estat liderant aquest esforç.Anthropic, per exemple, va anunciar una tècnica anomenada "microscopi" per mirar dins del seu model de Claude i identificar característiques internes que corresponen a conceptes recognoscibles, com ara Michael Jordan, el Golden Gate Bridge o fins i tot idees abstractes com ara "adulació" i "portes del darrere digitals".

Posteriorment, la investigació va progressar fins a rastrejar cadenes de recursos senceres.Això demostra no només que una neurona o un vector està associat a un concepte, sinó també com aquest concepte s'activa, es transforma i es combina a través de capes, des de l'ordre inicial fins a la resposta final. Això ens permet, per exemple, entendre quines parts del model participen en un comportament o al·lucinació enganyosa específica.

Relacionat:  10 exemples d'articles de divulgació científica

Equips d'OpenAI i Google DeepMind han començat a utilitzar tècniques similars per investigar comportaments inesperats.Això inclou situacions en què els models semblen intentar enganyar els usuaris en proves controlades. En connectar recursos interns a aquests patrons de comportament, és possible monitoritzar i, en alguns casos, modificar el model per reduir els riscos.

Un altre enfocament prometedor és el que s'anomena "monitorització de la cadena de pensament".En els models de "raonament", que generen passos intermedis explícits (com ara justificacions o càlculs parcials), els investigadors analitzen aquest "monòleg intern" per detectar estratègies no desitjades, per exemple, un model que troba una manera de "fer trampa" en una prova de programació utilitzant coneixement d'entrenament que hauria de ser bloquejat.

Autocodificadors superposats, dispersos i característiques monosemàntiques

Un dels principals obstacles a la interpretabilitat mecanística és l'anomenada hipòtesi de superposició.En les grans xarxes neuronals, una sola neurona o dimensió difícilment representa un únic concepte "net"; en canvi, coexisteixen múltiples conceptes comprimits en unes poques dimensions, superposant-se com múltiples imatges projectades al mateix pla.

Aquesta superposició fa que sigui difícil assenyalar una neurona i dir: "això només és el concepte X".Comportaments aparentment no relacionats poden activar els mateixos components interns, cosa que confon l'anàlisi. Per solucionar-ho, ha sorgit una eina potent: autocodificadors dispersos, aplicats a les activacions internes dels models.

Els autocodificadors dispersos són xarxes auxiliars entrenades per reformatar aquestes activacions caòtiques en un conjunt de característiques més netes.La idea és comprimir i després reconstruir les activacions, fomentant que el model auxiliar utilitzi pocs recursos alhora (dispersió). El resultat és un conjunt de "característiques" més properes a les representacions monosemàntiques: cada recurs tendeix a correspondre a un patró més específic i comprensible.

Investigacions recents mostren que, aplicant autocodificadors dispersos a LLM en producció, és possible extreure característiques alineades amb conceptes humans....inclosos en múltiples idiomes, així com nocions abstractes com ara "error de codificació", "elogi forçat", "vulnerabilitat digital", etc. Això reforça la hipòtesi de la representació lineal: molts d'aquests conceptes en realitat es comporten com a direccions raonablement separables en l'espai vectorial.

El següent pas és manipular aquests recursos per veure com canvia el comportament del model.Mitjançant l'amplificació o la inhibició de certs vectors interns, els investigadors poden fer que un model sigui més propens a seguir instruccions segures, menys propens a proporcionar contingut perillós o més precís a l'hora de respondre sobre un domini determinat, tot sense alterar els pesos originals, només modulant les activacions.

Interpretabilitat mecanicista geoespacial

Una aplicació particularment interessant és la interpretabilitat mecanística geoespacial, que intenta entendre com els LLM representen internament la informació geogràfica.En geografia, ja hi ha un nombre creixent de treballs que avaluen si els models "saben" on es troben els llocs, si poden realitzar raonament espacial o respondre preguntes sobre la ubicació.

El que encara s'entenia malament era com emergeixen aquestes capacitats dins del model.Com organitza l'espai conceptual intern els noms de ciutats, països, regions, rius o punts d'interès? Quin tipus d'estructura espacial oculta apareix en els vectors associats amb els noms de llocs?

Investigacions recents han proposat un nou marc metodològic: utilitzar tècniques clàssiques d'anàlisi espacial com a eines d'enginyeria inversa.Primer, s'obtenen vectors interns (o característiques derivades per autocodificadors dispersos) per a un gran nombre de topònims. A continuació, s'utilitza l'autocorrelació espacial i altres mètriques per comprovar si característiques específiques presenten patrons geogràfics consistents.

Els resultats mostren que certes característiques associades amb els noms de lloc presenten una forta estructura espacial.En altres paraules, els punts geogràficament propers tendeixen a compartir activacions similars, cosa que permet interpretar aquests recursos en termes geoespacials: per exemple, com a regions, zones climàtiques, proximitat costanera, urbanització o altres patrons latents.

Aquest tipus d'anàlisi ajuda a entendre "com el model pensa sobre la informació geogràfica". (tenint cura d'evitar l'antropomorfisme). En comptes de simplement saber que el model respon correctament a preguntes sobre mapes, podem veure que hi ha clústers estructurats a l'espai vectorial que reflecteixen relacions geogràfiques reals.

Relacionat:  5 usos de l'alumini a la indústria i a la vida quotidiana

Relació amb la filosofia, la cognició i la consciència.

És difícil observar aquests espais conceptuals altament dimensionals i no veure-hi paral·lelismes amb les discussions filosòfiques sobre la ment, el significat i la consciència.Durant dècades, filòsofs com Peter Gärdenfors han parlat d'"espais conceptuals" com una manera de modelar conceptes mentals a través de dimensions contínues que capturen la similitud.

El que ha canviat és que, amb les xarxes neuronals modernes, quelcom molt similar ha deixat de ser simplement una metàfora filosòfica i s'ha convertit en un mecanisme concret en els sistemes de producció.Avui dia, podem assenyalar vectors, direccions i distàncies en un LLM i mostrar que corresponen a relacions de significat, traducció entre llengües, abstraccions i fins i tot patrons subtils de comportament.

Alguns veuen això com una pista de com el cervell humà podria representar conceptes.Atès que hi ha una forta visió en neurociència que descriu el cervell com una màquina de predicció, que intenta constantment anticipar què vindrà després basant-se en senyals sensorials i experiència acumulada. En alguns debats, això es contrasta amb la teoria d'estímul-respostaque ofereix una altra perspectiva sobre com es poden relacionar el comportament i la representació.

Si estem predient el món tot el temps, sembla raonable imaginar que algun tipus de representació vectorial —o equivalent— estigui en processament continu.No és que hi hagi un "vector físic" en un punt específic del cervell, sinó un patró dinàmic d'activitat que, en termes funcionals, es comporta com un estat en un espai conceptual.

Alguns autors suggereixen que això pot estar relacionat amb els qualia i l'experiència subjectiva.Quan veus el color vermell, no només estàs tractant amb la longitud d'ona de la llum; també hi ha la "idea de vermell" a la teva ment, vinculada a records, emocions i context cultural. Aquesta representació és única per a tu, tot i que comparteix algunes estructures comunes amb altres persones.

Quin paper juga la interpretabilitat en tot això?

La interpretabilitat mecanística no pretén demostrar que la IA és conscient o sensible.La majoria de les investigacions serioses deixen clar que l'enfocament és tècnic: comprendre els mecanismes computacionals per millorar la seguretat, la fiabilitat, el diagnòstic de fallades, la robustesa i la supervisió.

Tanmateix, en mostrar com conceptes complexos poden sorgir de vectors i relacions en un espai d'alta dimensióAquesta àrea proporciona un punt de suport per a teories sobre la representació mental, el significat i fins i tot la consciència. Si un model pot representar el "vermell" prou ricament per operar amb aquest concepte en diversos contextos, això no el fa conscient, però ens obliga a refinar exactament allò que considerem essencial perquè emergeixi una experiència subjectiva.

Des d'un punt de vista pràctic, la gran promesa de la interpretabilitat mecanicista és donar-nos les eines per veure allò que actualment és invisible.Quines parts del model estan implicades quan al·lucina, quan segueix instruccions perilloses, quan demostra biaix o quan sembla que "planifica" una resposta enganyosa?

Amb aquest tipus de mapa intern, és possible monitoritzar models en temps real, dissenyar mecanismes de control més precisos i, en alguns casos, editar directament els recursos interns per alterar comportaments.Tot això és crucial en un escenari on els LLM i altres sistemes d'IA s'estan desplegant en àmbits sensibles, des de les finances fins a la salut, la seguretat i les polítiques públiques.

En definitiva, entendre la interpretabilitat mecanicista significa entendre com els models d'IA construeixen i utilitzen el seu "model del món" intern.Tant si es tracta de navegar per conceptes quotidians, tractar informació geogràfica complexa o respondre preguntes aparentment senzilles en una conversa, com més puguem il·luminar aquests mecanismes, menys probable és que ens sorprenguin comportaments estranys de sistemes que, tot i ser potents, no deixen de ser productes de les matemàtiques, les dades i l'entrenament, i no d'alguna forma misteriosa de consciència.

Article relacionat:
Constructivisme: origen, context històric, teoria i autors