Per capire come funzionano gli odierni LLM (modelli linguistici di grandi dimensioni) su cui si basa AI è necessario capire il concetto di deep learning.
“Il deep learning è un sottoinsieme del machine learning basato su modelli parametrizzati costituiti da composizioni multiple di funzioni non lineari, organizzate in strati (layer), che apprendono rappresentazioni gerarchiche dei dati ottimizzando una funzione obiettivo tramite metodi di discesa del gradiente e propagazione all’indietro dell’errore (backpropagation).”
Chi ha avuto modo di seguire di persona i miei corsi, sa che non è affatto questo il modo con cui affronto gli argomenti. Preferisco semplificare tutto con similitudini, cosa che andrò a fare anche adesso, ma ho voluto introdurre la lezione con questa definizione strettamente tecnica per chiarire un concetto base: per quanto si possa semplificare una spiegazione, dietro gli LLM c’è tutto un mondo molto complesso e tecnico, la cui comprensione esula dagli obiettivi di questo corso.
Volendo semplificare al massimo, immaginiamo il deep learning come una di quelle consolle mixer professionali che vediamo gestite dalle sapienti mani di un deejay o di un tecnico radiofonico. Per me che sono un profano dell’argomento, è affascinante pensare a quelle mani che gestiscono consolle con decine di tasti, leve e canali per ottimizzare la musica che arriva alle nostre orecchie. Ciascuna leva ottimizza un particolare aspetto del suono e va opportunamente amalgamato con i settaggi delle altre leve.
Ecco, il deep learning è un po' questo: strati di elaborazione che eseguono operazioni su un input e passano il risultato allo strato successivo. Ciascuno strato ha una sensibilità, o meglio un filtro, un settaggio diverso dal precedente. Ad esempio, davanti un’immagine, uno strato potrebbe estrarre bordi e contrasti; il successivo delle forme come cerchi ed angoli; un altro degli oggetti come occhi e viso; un altro un essere definito, come un cane. E un altro ancora capire che il risultato è sbagliato e far tornare tutto indietro con settaggi diversi fino ad arrivare al risultato corretto (nell’immagine c’era un volpino)
Il deep generative learning invece è quel processo che, oltre a riconoscere i dati (nell’esempio di prima, il volpino), ne crea uno simile ma diverso (una volpe adulta).
Nella prossima lezione abbandoneremo la parte teorica (che come avete visto, come accade sempre nei miei corsi, occupa meno parte possibile) e inizieremo a mettere le mani in pasta.
Questo sito non utilizza cookie, non mostra nessuna pubblicità e non profila nulla. Navigate serenamente, siete i benvenuti.