INTELLIGENZE ARTIFICIALI

>

Anthropic rivoluziona il modo di interpretare i modelli di IA

Da tempo, i modelli di Intelligenza Artificiale (IA) sono visti come scatole nere, complesse da interpretare e da decodificare. Oggi, Anthropic, una startup punta sulla IA (e che ha creato Claude) con l’obiettivo di aumentare la fiducia e la sicurezza, ci consegna una possibile riposta.

Decifrare la complessità dei modelli

Comprendere che i large language models (LLM), basati sulle reti neurali, sono estremamente complessi è il primo passo. Questi modelli sono addestrati su enormi quantità di dati, rendendoli difficili da decifrare. Capire il funzionamento matematico è una cosa, ma intuire i motivi dietro una particolare decisione ne è un’altra. Solo per fare un esempio, immaginate quanto sia difficile per i neuroscienziati capire il funzionamento interno del cervello umano.

L’approccio creativo di Anthropic

Anthropic ha apportato un elemento di novità in un documento intitolato Towards Monosemanticity. Il principio è quello di non usare i singoli neuroni come unità per l’analisi e la spiegabilità ma di usare le “features”, ossia gli schemi di attivazione neuronica nei large language model. L’uso delle “features” come unità si rivela più semplice ed efficace per interpretare i comportamenti complicati dei modelli di intelligenza artificiale.

Leggi anche OpenAI e la strategia B2B, perché il cambio di direzione

La scoperta rivoluzionaria

Quindi il cuore della scoperta di Anthropic è che le features possono essere attivate artificialmente per guidare il comportamento del modello in maniera prevedibile. In altre parole, si sta cercando di fare chiarezza sul funzionamento interno dei modelli di IA per rendere più comprensibili i loro processi decisionali. Questa è solo la prima fase di un’indagine che si prospetta davvero rivoluzionaria se avrà successo.