I PDF come Cavalli di Troia: Come una Vulnerabilità Nascosta in Apache Tika ha Lasciato le Aziende Senza Difese
Una vulnerabilità appena rivelata nel cuore di Apache Tika consente agli aggressori di trasformare PDF apparentemente innocui in armi, esponendo dati sensibili e aggirando le precedenti correzioni di sicurezza.
Nel continuo gioco a scacchi tra difensori e cybercriminali, a volte le minacce più pericolose sono quelle che si nascondono in piena vista. Questa settimana, i ricercatori di sicurezza hanno lanciato l’allarme su una falla critica in Apache Tika - un toolkit ampiamente utilizzato per estrarre testo e metadati dai file - che trasforma caricamenti di PDF apparentemente innocui in una silenziosa porta d’ingresso per gli aggressori. Il bug, ora catalogato come CVE-2025-66516, è più esteso di quanto si pensasse, esponendo le organizzazioni anche dopo che si credevano protette dalle patch.
Anatomia di una Minaccia Sottovalutata
Al centro della crisi c’è una vecchia vulnerabilità, riscoperta di recente. Apache Tika è il coltellino svizzero dell’estrazione di contenuti, utilizzato per alimentare motori di ricerca, sistemi di gestione documentale e molto altro. Ma la sua popolarità lo rende anche un bersaglio privilegiato. La vulnerabilità CVE-2025-66516 appena documentata consente agli aggressori di inserire payload XML dannosi nei PDF sfruttando lo standard XFA (XML Forms Architecture). Quando Tika analizza questi file, elabora inconsapevolmente l’XML incorporato, permettendo agli aggressori di esfiltrare file sensibili, lanciare attacchi di denial-of-service o ottenere accesso non autorizzato a risorse interne.
Il vero colpo di scena? Si pensava che la falla fosse contenuta nel modulo di parsing PDF di Tika (affrontata lo scorso anno come CVE-2025-54988). Le organizzazioni hanno diligentemente aggiornato il loro tika-parser-pdf-module, credendosi al sicuro. Ma un’analisi più approfondita ha rivelato che la debolezza risiedeva nella libreria core di Tika stessa. Ciò significa che anche i sistemi “patchati” restavano vulnerabili se tika-core non veniva anch’esso aggiornato - un dettaglio trascurato in molte comunicazioni di sicurezza.
La confusione è stata aggravata dal modo in cui Tika gestiva i moduli nella serie 1.x, dove il codice di parsing PDF era incluso nel pacchetto principale dei parser. Molte implementazioni legacy, soprattutto nelle grandi aziende con infrastrutture estese, hanno così mancato patch fondamentali.
Chi è a Rischio - e Cosa Succede Ora?
Questa vulnerabilità è particolarmente devastante per qualsiasi organizzazione che gestisca PDF non affidabili provenienti da fonti esterne: pensiamo a studi legali, istituti finanziari, enti governativi e servizi cloud. All’aggressore basta caricare un PDF appositamente creato per attivare l’exploit. L’ampiezza delle versioni colpite significa che molte organizzazioni - soprattutto quelle che utilizzano versioni di Tika più vecchie o personalizzate - sono ancora nel mirino.
La soluzione è semplice ma imprescindibile: aggiornare tika-core alla versione 3.2.2 o superiore e assicurarsi che tutti i componenti parser siano altrettanto aggiornati. I team di sicurezza sono invitati a eseguire audit dei propri ambienti, verificare tutti i moduli e applicare le patch in modo aggressivo - perché nel mondo del file parsing, anche una sola libreria trascurata può spalancare le porte al disastro.