Terminata la battaglia del gigahertz inizia quella dei TOPS?

Informatica Taranto

L’arrivo delle NPU (Neural Processing Unit) nei processori per la gestione delle operazioni di IA in locale sui PC ha introdotto un nuovo parametro che un po’ tutti i produttori hanno sbandierato all’ultimo COMPUTEX di Taipei: quello dei TOPS.

La Neural Processing Unit è un’unità di calcolo che serve ad accelerare, a basso consumo, l’inferenza dell’intelligenza artificiale. I carichi di lavoro legati all’IA consistono principalmente nel calcolo di layer di reti neurali composti da elaborazioni di tipo scalare, vettoriale e tensoriale seguite da una funzione di attivazione non lineare.

In questo lavoro la NPU non è sola, lavora di concerto con la CPU e la GPU: i core della CPU possono occuparsi di quei carichi che necessitano di una risposta rapida, ovvero compiti sequenziali a bassa latenza. La GPU, con il suo throughput elevato e le tante unità in parallelo, è ideale per i carichi di lavoro più complessi. È nel mezzo che agisce la NPU, pensata per carichi di IA sostenuti e di medio-alta entità, il tutto con una maggiore efficienza energetica rispetto agli altri due componenti.

TOPS sta per “Trillions of Operations Per Second” e potete trovarlo anche indicato come TeraOPS. Si parla di migliaia di miliardi di operazioni al secondo, e si può guadare al numero come una dato prestazionale grezzo: più alto è il valore, maggiori sono le prestazioni teoriche offerte.

Di conseguenza, al COMPUTEX i produttori di CPU non hanno avuta altra opzione che sbandierare il valore di TOPS raggiunto dalle rispettive NPU, in una sorta di gioco al “ce l’ho più lungo io” che, ribadiamo, ci ha ricordato la corsa al gigahertz degli inizi del 2000.

I TOPS danno un’idea adeguata delle capacità delle NPU e lo fanno in un modo immediatamente comprensibile ai consumatori, ma bisogna correlarli alle prestazioni reali, che sono il culmine di vari fattori come la larghezza di banda della memoria, l’ottimizzazione del software e l’integrazione di sistema.

Per un chatbot, la latenza del primo token indica il tempo necessario per pensare alla domanda posta dall’utente prima di iniziare a rispondere. Questa fase è legata al calcolo, il che significa che più TOPS si hanno meglio è.

Una volta generato il primo token, il tempo necessario per generare il secondo token (il tempo che impiega ogni parola della risposta a comparire sullo schermo) è definito “latenza del secondo token” e lì pesa la bandwidth di memoria. La valutazione delle latenze del token 1 e del token 2 svolge un ruolo cruciale nello stabilire se l’utente ha avuto o no un’esperienza adeguata. La seconda fase è quella che gli utenti percepiscono, in quanto è quella in cui si può vedere una differenza tra un chatbot capace di generare 3 parole al secondo oppure 20.

Un altro fattore importante è la dimensione del batch, ovvero il numero di input elaborati simultaneamente in un singolo passaggio di inferenza. La capacità di gestire più input (da una singola applicazione o da più applicazioni) è un elemento differenziante chiave. Sebbene le dimensioni dei batch più grandi migliorino le prestazioni per gli input simultanei, richiedono anche più memoria, soprattutto se combinate con modelli più grandi.

Di recente, parlando dei risultati prestazionali dei vari chip con l’IA, abbiamo avuto dimostrazione che l’ottimizzazione dello stack software ha un peso non indifferente nel far sprigionare all’hardware l’effettiva potenza. NVIDIA, per esempio, in un anno è riuscita a estrarre il 27% di prestazioni in più da 512 GPU H100.

C’è poi un altro elemento di cui si dovrebbe tenere conto, i consumi. Laddove dovessero esserci due chip diversi in grado di vantare una NPU da 50 TOPS, un altro parametro di valutazione sarebbero i consumi, in quanto se uno dovesse consumare 10W e l’altro 5W, l’impatto sulla batteria di un portatile sarebbe diverso e tale da definire il prodotto migliore. Allo stesso modo, anche se una NPU dovesse offrire 50 TOPS richiedendo 10W e una 25 TOPS consumando solo 3W, la seconda NPU sarebbe migliore in termini di efficienza.

Fonte: hwupgrade.it

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *