La mossa di potere dell’IA di DeepSeek: tagliare la memoria richiesta e sfidare il prezzo di GPT

I modelli V4 di DeepSeek promettono un’efficienza rivoluzionaria e costi più bassi, ma quanta parte dell’hype regge a un esame approfondito?

Nel mondo dell’IA in rapidissima evoluzione, dove ogni svolta sembra superare la precedente, DeepSeek ha lanciato il guanto di sfida. Con l’uscita dei suoi modelli linguistici di grandi dimensioni V4 e V4-Pro, la giovane realtà cinese dell’IA rivendica non solo salti monumentali in termini di efficienza, ma anche una competizione diretta con i giganti occidentali - con una frazione dell’impronta di memoria e del prezzo. Ma, come per ogni affermazione audace nella corsa agli armamenti dell’IA, il diavolo sta nei dettagli.

L’anatomia di una rivoluzione dell’efficienza nell’IA

Al cuore del salto tecnico di DeepSeek V4 c’è un sistema di attenzione ibrido, che combina Compressed Sparse Attention e Heavy Compressed Attention. In termini semplici, questo consente al modello di “ricordare” un contesto enormemente più ampio - fino a un milione di token - riducendo drasticamente la memoria necessaria per farlo. Il nuovo approccio comprime le cache key-value, il taccuino digitale che traccia ciò che il modello ha visto, e taglia il fabbisogno di memoria di quasi un ordine di grandezza rispetto alle versioni precedenti.

La spinta all’efficienza non si ferma qui. DeepSeek impiega un addestramento consapevole della quantizzazione, sfruttando sia la precisione FP8 sia FP4. Memorizzare i pesi in FP4 (quattro bit per valore) invece che in FP8 (otto bit) dimezza l’uso di memoria, un vantaggio cruciale per chiunque esegua questi modelli colossali al di fuori dei data center hyperscale. L’introduzione dell’ottimizzatore Muon accelera ulteriormente l’addestramento e stabilizza il processo di apprendimento, secondo le divulgazioni della stessa DeepSeek.

L’hardware e la geopolitica dell’IA

La scelta di DeepSeek di supportare sia le GPU Nvidia sia le NPU Huawei Ascend è più di una semplice dimostrazione tecnica - è una mossa strategica. Con l’escalation delle tensioni tecnologiche tra Stati Uniti e Cina e l’accesso all’hardware Nvidia che diventa un punto critico geopolitico, la possibilità di far girare IA all’avanguardia su chip cinesi potrebbe rivelarsi decisiva per utenti domestici e internazionali. Tuttavia, resta poco chiaro se gli acceleratori Huawei siano stati utilizzati durante la fase di addestramento vera e propria o se siano soltanto un’opzione per l’inferenza.

Spavalderia nei benchmark e la guerra dei prezzi

I modelli V4 di DeepSeek sono disponibili open-weight su Hugging Face e via API, con costi d’uso che tagliano drasticamente quelli di GPT-5.5 di OpenAI. Dove GPT-5.5 chiede 5 dollari per milione di token in input, DeepSeek V4 si attesta a soli 0,14 dollari. Il V4-Pro, pur più caro, resta comunque un affare a 1,74 dollari per milione di token in input. Le dichiarazioni sulle prestazioni sono audaci - DeepSeek afferma che V4-Pro eguaglia o supera tutti i modelli open-weight e persino i leader occidentali proprietari. Eppure, si tratta di numeri auto-riportati; il vero banco di prova saranno i benchmark indipendenti.

Conclusione: dirompente o hype?

I modelli V4 di DeepSeek potrebbero segnare un momento spartiacque nella democratizzazione dei modelli linguistici di grandi dimensioni - se la tecnologia sarà all’altezza delle promesse. Con miglioramenti drastici nell’efficienza della memoria, compatibilità tra hardware diversi e una politica di prezzi aggressiva, DeepSeek si sta posizionando come un contendente serio nel panorama globale dell’IA. Ma finché test indipendenti non confermeranno le prestazioni, il settore osserverà - e aspetterà - per capire se le affermazioni di DeepSeek siano il prossimo salto in avanti o soltanto un altro capitolo nel ciclo dell’hype dell’IA.

TECHCROOK

Per sfruttare davvero modelli LLM più efficienti in memoria come quelli descritti, serve comunque un’accelerazione locale adeguata: una scelta coerente è la NVIDIA GeForce RTX 4090, GPU consumer di fascia alta adatta a inferenza e sperimentazione con modelli open-weight, quantizzazione (FP8/INT8/INT4 via tool software) e contesti estesi, riducendo la dipendenza da API a consumo. Basata su architettura Ada Lovelace, offre 24 GB di VRAM GDDR6X, ampia banda memoria e supporto CUDA/Tensor Core per carichi AI. È indicata per workstation con alimentatore e raffreddamento adeguati, e per chi vuole valutare prestazioni reali oltre i benchmark auto-riportati. Il prodotto è disponibile su diversi canali e si può acquistare anche su Amazon.

WIKICROOK

Mixture: Un Mixture of Experts è un sistema di IA in cui più modelli specializzati collaborano, ciascuno gestendo parti diverse di un compito per migliorare accuratezza ed efficienza.
Compressed Sparse Attention: La compressed sparse attention ottimizza i modelli di machine learning concentrandosi sui dati chiave, riducendo il carico computazionale e migliorando l’efficienza nelle applicazioni di cybersecurity.
Quantization: La quantizzazione riduce la precisione dei numeri nei modelli di IA, rendendoli più veloci e meno intensivi in termini di memoria, ideale per un deployment sicuro su hardware limitato.
Token: Un token è una chiave digitale che verifica l’identità e concede accesso ai sistemi. Se rubato o usato impropriamente, può consentire agli attaccanti un ingresso non autorizzato.
Inference: L’inferenza è quando un modello di IA usa pattern di dati appresi per fare previsioni o generare risposte, aiutando nel rilevamento delle minacce e nell’automazione.