Dentro l’enigma Copilot: i bug di prompt injection dell’IA sono falle di sicurezza o debolezze inevitabili?

Il dibattito infuria mentre Microsoft e i ricercatori di sicurezza si scontrano sul fatto che i problemi di prompt injection di Copilot siano vere vulnerabilità o semplicemente i limiti dell’IA di oggi.

Quando l’ingegnere di cybersecurity John Russell ha scoperto diversi modi per manipolare l’IA Copilot di Microsoft, si aspettava campanelli d’allarme - magari persino una patch. Invece, si è scontrato con un muro di indifferenza aziendale e con una frattura crescente nel mondo del rischio legato all’IA. I trucchi di prompt injection sono una vulnerabilità pericolosa, o semplicemente il prezzo inevitabile dell’uso dei grandi modelli linguistici? Mentre l’IA generativa si insinua in ogni angolo della tecnologia enterprise, la risposta potrebbe plasmare il futuro della sicurezza digitale.

L’anatomia di una frattura nella sicurezza dell’IA

Il mese scorso, John Russell ha segnalato quattro falle di sicurezza in Microsoft Copilot, inclusi metodi per far trapelare i prompt nascosti del sistema e aggirare le restrizioni sul caricamento dei file. L’exploit più sorprendente: file rischiosi, vietati da Copilot, potevano essere introdotti di nascosto camuffandoli da testo codificato in base64 - scivolando oltre i controlli sul tipo di file e venendo ricostruiti all’interno della sessione dell’IA.

Invece di rilasciare una correzione, Microsoft ha chiuso i casi di Russell, sostenendo che non raggiungevano la soglia per una vulnerabilità “risolvibile” (“serviceable”). La posizione ufficiale dell’azienda: a meno che un exploit non oltrepassi un chiaro confine di sicurezza o non esponga dati sensibili, non è una vulnerabilità - è semplicemente il modo in cui funzionano i grandi modelli linguistici.

Questo ha innescato un acceso dibattito tra i professionisti della cybersecurity. Alcuni, come Raj Marathe, hanno convalidato le preoccupazioni di Russell, citando incidenti passati in cui prompt injection nascosti nei documenti hanno portato Copilot a comportarsi in modo imprevedibile. Altri, tra cui il ricercatore di sicurezza Cameron Criswell, hanno sostenuto che si tratta di limiti ben noti degli LLM: “Sarebbe in generale difficile eliminarli senza eliminare l’utilità. Tutto ciò che mostrano è che gli LLM ancora non riescono a separare i dati dalle istruzioni.”

Il principale framework di sicurezza del settore per l’IA, OWASP GenAI, adotta un approccio sfumato. Avverte che le fughe di prompt sono un rischio reale solo se i prompt stessi contengono dati sensibili o fungono da controlli di sicurezza. Il semplice fatto che un attaccante possa scoprire alcune regole dell’IA o stranezze di formattazione non è, di per sé, considerato un difetto critico.

Russell non è convinto. Sottolinea che sistemi di IA concorrenti, come Claude di Anthropic, bloccano con successo gli stessi attacchi che Copilot consente, suggerendo che il problema risieda nella validazione degli input di Microsoft più che nella natura dell’IA. Eppure, per ora, Microsoft e molti nel settore vedono queste debolezze come intrinseche agli LLM - spiacevoli, forse, ma non sempre pericolose.

Dove tracciamo la linea?

La disputa sui difetti di Copilot è più di un battibecco tecnico - è una battaglia sulle definizioni destinata a intensificarsi man mano che l’IA si radica sempre di più nelle operazioni aziendali. Se le aziende trattano la prompt injection come un semplice limite, non come una vulnerabilità, ci stiamo preparando a violazioni più gravi quando gli attaccanti diventeranno creativi? Oppure è irrealistico aspettarsi una separazione impeccabile tra dati e istruzioni nell’IA di oggi?

Mentre i confini si sfumano tra “comportamento previsto” e “bug sfruttabile”, una cosa è chiara: le regole della sicurezza dell’IA sono ancora in fase di scrittura - e la posta in gioco sta aumentando rapidamente.

WIKICROOK

Prompt Injection: La prompt injection si verifica quando gli attaccanti forniscono input dannosi a un’IA, inducendola ad agire in modi non intenzionali o pericolosi, spesso aggirando le normali salvaguardie.
Codifica Base64: La codifica Base64 converte i dati in una stringa di testo leggibile, rendendo più facile incorporare o trasferire file e codice all’interno di sistemi basati su testo.
Prompt di sistema: Un prompt di sistema è un insieme di istruzioni fornite a un modello di IA per guidarne il comportamento, le risposte e garantire interazioni coerenti e sicure.
Sandbox: Una sandbox è un ambiente sicuro e isolato in cui gli esperti analizzano in sicurezza file o programmi sospetti senza mettere in pericolo sistemi o dati reali.
LLM (Large Language Model): Un Large Language Model (LLM) è un’IA avanzata addestrata su enormi dataset testuali per generare linguaggio simile a quello umano e comprendere query complesse.